Használjon reguláris kifejezéseket REGEX automatizált adatgyűjtéshez és adatkinyeréshez (2. rész)
Legmagasabb lehetséges kedvezmények ajánlatai
Kizárólagos bennfentes hírek
Ingyenes bónuszfrissítések
Legmagasabb lehetséges kedvezmények ajánlatai
Kizárólagos bennfentes hírek
Ingyenes bónuszfrissítések
Barátság Bizalom Ígéret szava
Sosem fogjuk átadni az email címét senkinek másnak, és minden emailben megtalálható egy egycsapásos leiratkozási link.
Az aktuális cikkben bemutatjuk, hogyan használhatóak a reguláris kifejezések az automatizált dokumentumfeldolgozás előnyeinek kihasználása érdekében. Ez különösen cégek dokumentumaira vonatkozik minden iparágban.
Megmutatjuk azonos példákat a reguláris kifejezésekről, és lépésről lépésre megmagyarázzuk, mit jelentenek ezek, és hogyan lehet őket hasznosítani.
Ezzel növelheti az üzleti hatékonyságot, csökkentheti a hibákat a nagyobb pontosság révén, csökkentheti a jelenlegi költségeket, megőrizheti az adatintegritást és javíthatja az adatbiztonságot.
A jelenlegi cikk kibővíti az intelligens dokumentumfeldolgozás első részét, ide kattintva megtalálja a cikket.
Az adott adatelemek kinyerése a dokumentumokból rendkívül költséges és időigényes feladat lehet. Gyakran a dokumentumok pásztázott másolatait nagy outsourcing adatrögzítő cégekbe küldik, ahol adataik kézzel vannak bevitelezve.
Azonban ennek a módszernek számos hátránya van, például:
Valamint számos további hátrány.
A papír alapú dokumentumok nagy részén alapuló üzleti tranzakciók részaránya ellenére a számlák 85%-a még mindig papíron van kiállítva.
Emellett hatalmas mennyiségű papír is létezik, amelyet hatalmas raktárakban kell tárolni!
A reguláris kifejezések, más néven "Regexek" erőteljes eszközök a szövegek kereséséhez és módosításához. Lehetővé teszik a szövegben előforduló összetett minták felismerését és módosítását.
A reguláris kifejezés normál betűk és speciális metakarakterek kombinációjából áll, amelyek különleges funkciókkal rendelkeznek.
A reguláris kifejezések szöveg helyettesítésére vagy módosítására is használhatók. Például egy reguláris kifejezés használható.
Nagyon hatékony eszközöket jelent a szövegfeldolgozáshoz és feladatok automatizálásához.
Az eltérő típusú, különböző nevezési szabályokkal rendelkező és megfelelő keresési rendszer nélküli digitális dokumentumok számának növekedése rontja a keresési folyamatot, valamint a dokumentuminformációk kinyerését bizonyos tartalmakból, különösen, ha osztályozatlan dokumentumokról van szó, a keresés pontatlan és hosszadalmas.
Ezáltal a dokumentumtartalom meghatározott karakterláncra kerül keresésre és kinyerésre.A reguláris kifejezések lehetővé teszik az információminták meghatározását, amelyekben speciális szimbólumokat használnak.
A Regex módszer a leginkább alkalmas dokumentumokhoz, amelyekben a kinyerendő értékek pozíciói változhatnak, és egyszerű dokumentumminták nem működnek.
Egy egyszerű kifejezések listája megtalálható a ComDesk oldalunkon.
Reguláris kifejezéseket különböző módon lehet összeállítani annak függvényében, milyen mintát keresünk.
Metakarakterek használata, mint ., *, +, ?, ^, $, [] és [a-z], hogy bizonyos típusú karaktereket vagy mintákat képviseljenek.
Opcionális részek használata: Használja a kérdőjelet (?) vagy a csillagot (*), hogy a minta részeit opcionálissá tegye.
Csoportok használata: Használjon kerek zárójeleket, hogy a minta részeit csoportosítsa és egységként kezelje.
Fontos megjegyezni, hogy a reguláris kifejezésekre vonatkozó szabályok programnyelvenként eltérhetnek. Figyelmesen olvassa el a használt eszközök dokumentációját. A PaperOffice számára írt Reguláris Kifejezéseknek kompatibilisnek kell lenniük az ECMAScript és a PCRE2 szabvánnyal.
Tipp
A "Dokumentumautomatizálás / REGEX és változók / Számlafeldolgozás automatizálása" témához kapcsolódó könnyen érthető videó is található a YouTube-on:
Ebben a cikkben bemutatjuk, hogyan tudja a PaperOffice segítségével a dokumentumból bármilyen adatot REGEX segítségével kinyerni, majd automatikusan címkézve a dokumentumhoz társítani.
Összeállítottunk egy mintadokumentumot, amelyben egy meghatározott dátum található. Ez a dokumentum egy számla. A dátumminta a dokumentumon a következő módon van formázva:
A hónap betűkkel van megadva, ahol az első betű mindig nagybetűs. Erre egy szóköz következik, majd a nap, amiután vessző következik, majd újabb szóköz, majd az év.
Például: Sep 20, 2019 vagy Mär 05, 2022
Az adat kinyeréséhez a következő reguláris kifejezést (REGEX) használhatjuk:
Részekre bontjuk az egyes csoportokat. Ezeket a csoportokat egyszerű zárójelekkel () választjuk el egymástól.
Az első csoportban a 3 betűs hónapneveket keressük: ([A-Z][a-zä]{2})
Azután keresünk egy szóközt a következő karakterlánccal: \s
A második csoportban számokkal keresünk az adott napot megjelölő feliratot: (0[1-9]|[12][0-9]|3[01])
A dátumot 3 különböző utasítással kell elválasztani.
Mivel nem tudhatjuk, hogy a dokumentumban milyen dátum található (lehet az hónap első napja (01) vagy az utolsó napja (31)), ezért különböző lehetőségeket kell megadni.
Ezeket az opciókat a „|” karakterrel választjuk el.
Példa: (1|2|3) = 1 vagy 2 vagy 3.
Szögletes zárójelben megadhatunk egy megengedett karakterekből álló listát. Több szögletes zárójel több karakterre vonatkozik.Ha egy kifejezés több karaktert ír le, akkor ezek egymás után következnek. Az összehasonlítás balról jobbra történik.
Természetesen nem mindig kell mindegyik számot felsorolni. A klózok általánosságban csak egy karakterre vonatkoznak.
Ez a karakterlánc egy mintát keres, amely egy nulla karakterrel kezdődik. Ha a dokumentumnak alapvetően úgy kell megadnia a dátumot, hogy „2022. március 5.”, és nem tartalmazza azt, hogy a „5” szám előtt álljon a „0”, akkor a karakterláncban a „0” karaktert elhagyjuk.
A napot követően az évet kell meghatározni.
A következő lépésben a vesszőt és a szóközt keresjük: ,\s
Az utolsó csoport
Mint további példát mutatunk, szeretnénk kinyerni a rendelésszámot a dokumentumból.
A rendelésszám a dokumentumunkon a következő formában van formázva:
Ez mindig a XYB nagybetűkkel kezdődik, utána következik egy kötőjel, majd 8 számjegy, egy további kötőjel, és végül 3 véletlenszerű nagybetű.
A rendelésszám példái:
XYB-12316723-LSH
XYB-98456723-JRD
A rendelésszám kinyeréséhez a következő reguláris kifejezést használhatjuk:
Hagyjuk, hogy a kifejezést apránként elemezzük.
Elsőként pontosan megkeressük az első 3 nagybetűt kötőjel-szimbólummal: XYB-
Ezt követően 8 számjegyet és egy újabb kötőjelet keresünk: \d{8}-
Az \d karakter, amint azt már említettük, 0 és 9 közötti számjegyekre utal, a \d{8} pedig egy 8 jegyű számot keres.
És végül keresünk még 3 tetszőleges nagybetűt: [A-Z]{3}
Tehát a PaperOffice a következő rendelésszámokból:
XYB-12316723-LSH
XYB-98456723-JRD
XYB-975432671829
ZYB-12342176-ZHD
az első kettőt XYB-12316723-LSH és XYB-98456723-JRD
fogja felismerni.
Egy Regex101 linket állítottunk össze a példához, amelyen a fenti kifejezés 4 példával van felsorolva. Látható, hogy csak a megadott rendelésszámok közül kettő felel meg a követelményeknek.
A cikszám a dokumentumunkon a következő formában van formázva:
Állandóan két nagybetűvel kezdődik, utána következik egy kötőjel, majd 6 számjegy.
A cikkszám példái:
MS-863398
DS-452829
A cikkszámok kinyeréséhez a következő reguláris kifejezést használhatjuk:
A PaperOffice digitalizálja dokumentumait és integrálja rendszereibe, automatizálva a számlák és más dokumentumok adatainak kinyerését, anélkül, hogy sok-sok kódot kellene írni és utána karban tartani.
Vegye fel velünk a kapcsolatot, hogy beszéljünk alkalmazási eseteiről, és hogy többet megtudjon arról, hogyan segíthet a PaperOffice abban, hogy a digitális korban is versenyképes legyen.
Nyújtson be, egyszerűbb, mint gondolná.
Még mindig aggódik amiatt, hogy nem sikerül? Olvassa el ügyfeleink esettanulmányait, amelyek a PaperOffice integrációjáról a mindennapi munkához, és győződjön meg saját maga a könnyed használatról, vagy kérjen egy teszt telepítést.
ERROR: LID-5759 missing
ERROR: LID-6036 missing
ERROR: LID-6035 missing
ERROR: LID-5763 missing
ERROR: LID-6039 missing
ERROR: LID-6035 missing
ERROR: LID-5756 missing
ERROR: LID-6042 missing
ERROR: LID-5803 missing
ERROR: LID-5793 missing
ERROR: LID-6069 missing
ERROR: LID-6070 missing
ERROR: LID-5787 missing
ERROR: LID-6072 missing
ERROR: LID-6035 missing
ERROR: LID-5789 missing
ERROR: LID-6077 missing
ERROR: LID-6070 missing
ERROR: LID-6074 missing
ERROR: LID-5771 missing
ERROR: LID-6075 missing
ERROR: LID-6035 missing
ERROR: LID-5777 missing
ERROR: LID-5759 missing
ERROR: LID-5763 missing
ERROR: LID-5800 missing
ERROR: LID-5769 missing
ERROR: LID-6082 missing
ERROR: LID-6083 missing