A PaperOffice Insider hírlevél
A PaperOffice Insider hírlevél
Barátok szeretnénk lenni

Legmagasabb lehetséges kedvezmények ajánlatai

Kizárólagos bennfentes hírek

Ingyenes bónuszfrissítések

Legmagasabb lehetséges kedvezmények ajánlatai

Kizárólagos bennfentes hírek

Ingyenes bónuszfrissítések

Barátság Bizalom Ígéret szava
Sosem fogjuk átadni az email címét senkinek másnak, és minden emailben megtalálható egy egycsapásos leiratkozási link.

Intelligens dokumentumfeldolgozást végezzen helyesen


Profi tipp

Automatizált adatgyűjtés reguláris kifejezések segítségével: Hogyan lehet hatékonyan feldolgozni nagy adatmennyiségeket reguláris kifejezések segítségével.


Automatizált adatgyűjtés és adatkinyerés kulcsa.

Az aktuális cikkben bemutatjuk, hogyan használhatóak a reguláris kifejezések az automatizált dokumentumfeldolgozás előnyeinek kihasználása érdekében. Ez különösen cégek dokumentumaira vonatkozik minden iparágban.

Megmutatjuk azonos példákat a reguláris kifejezésekről, és lépésről lépésre megmagyarázzuk, mit jelentenek ezek, és hogyan lehet őket hasznosítani.

Ezzel növelheti az üzleti hatékonyságot, csökkentheti a hibákat a nagyobb pontosság révén, csökkentheti a jelenlegi költségeket, megőrizheti az adatintegritást és javíthatja az adatbiztonságot.

A jelenlegi cikk kibővíti az intelligens dokumentumfeldolgozás első részét, ide kattintva megtalálja a cikket.

Az adott adatelemek kinyerése a dokumentumokból rendkívül költséges és időigényes feladat lehet. Gyakran a dokumentumok pásztázott másolatait nagy outsourcing adatrögzítő cégekbe küldik, ahol adataik kézzel vannak bevitelezve.

Azonban ennek a módszernek számos hátránya van, például:

  • Ezzel veszélyeztetődhet a dokumentumbiztonság
  • Becslési folyamatokban késések jelentkeznek
  • Automatizált adatnyeréshez képest a kézi indexelés lassú folyamat
  • A kézi indexelés nem skálázható nagy projektek esetén
  • A kézi indexelés hibákat okozhat az adatokban
  • Ha egy dokumentum megváltozik, az egész folyamat újból kezdődik

Valamint számos további hátrány.

A papír alapú dokumentumok nagy részén alapuló üzleti tranzakciók részaránya ellenére a számlák 85%-a még mindig papíron van kiállítva.

Emellett hatalmas mennyiségű papír is létezik, amelyet hatalmas raktárakban kell tárolni!

Mi az a reguláris kifejezés?

A reguláris kifejezések, más néven "Regexek" erőteljes eszközök a szövegek kereséséhez és módosításához. Lehetővé teszik a szövegben előforduló összetett minták felismerését és módosítását.

A reguláris kifejezés normál betűk és speciális metakarakterek kombinációjából áll, amelyek különleges funkciókkal rendelkeznek.

A reguláris kifejezések szöveg helyettesítésére vagy módosítására is használhatók. Például egy reguláris kifejezés használható.

Nagyon hatékony eszközöket jelent a szövegfeldolgozáshoz és feladatok automatizálásához.

Hogyan segíthetnek a reguláris kifejezések egy vállalat automatizálásában?

Az eltérő típusú, különböző nevezési szabályokkal rendelkező és megfelelő keresési rendszer nélküli digitális dokumentumok számának növekedése rontja a keresési folyamatot, valamint a dokumentuminformációk kinyerését bizonyos tartalmakból, különösen, ha osztályozatlan dokumentumokról van szó, a keresés pontatlan és hosszadalmas.

A reguláris kifejezések (Regexek) gyors és hatékony módszert kínálnak bizonyos adatok keresésére, kinyerésére és helyettesítésére dokumentumokban. A reguláris kifejezések lényegében egy speciális szövegláncot jelentenek egy keresési minta leírására.

Ezáltal a dokumentumtartalom meghatározott karakterláncra kerül keresésre és kinyerésre.A reguláris kifejezések lehetővé teszik az információminták meghatározását, amelyekben speciális szimbólumokat használnak.

A Regex módszer a leginkább alkalmas dokumentumokhoz, amelyekben a kinyerendő értékek pozíciói változhatnak, és egyszerű dokumentumminták nem működnek.

Egy egyszerű kifejezések listája megtalálható a ComDesk oldalunkon.

PaperOffice Regex Beispielsammlung
Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

Hogyan állíthatok össze reguláris kifejezéseket?

Reguláris kifejezéseket különböző módon lehet összeállítani annak függvényében, milyen mintát keresünk.

Metakarakterek használata, mint ., *, +, ?, ^, $, [] és [a-z], hogy bizonyos típusú karaktereket vagy mintákat képviseljenek.

Opcionális részek használata: Használja a kérdőjelet (?) vagy a csillagot (*), hogy a minta részeit opcionálissá tegye.

Csoportok használata: Használjon kerek zárójeleket, hogy a minta részeit csoportosítsa és egységként kezelje.

Fontos megjegyezni, hogy a reguláris kifejezésekre vonatkozó szabályok programnyelvenként eltérhetnek. Figyelmesen olvassa el a használt eszközök dokumentációját. A PaperOffice számára írt Reguláris Kifejezéseknek kompatibilisnek kell lenniük az ECMAScript és a PCRE2 szabvánnyal.

Tipp

A "Dokumentumautomatizálás / REGEX és változók / Számlafeldolgozás automatizálása" témához kapcsolódó könnyen érthető videó is található a YouTube-on:

Hogyan hozhatok ki információt a dokumentumból REGEX segítségével?

Gyakorlati példák

Ebben a cikkben bemutatjuk, hogyan tudja a PaperOffice segítségével a dokumentumból bármilyen adatot REGEX segítségével kinyerni, majd automatikusan címkézve a dokumentumhoz társítani.

Összeállítottunk egy mintadokumentumot, amelyben egy meghatározott dátum található. Ez a dokumentum egy számla. A dátumminta a dokumentumon a következő módon van formázva:

PaperOffice Rechnung mit Regex zu auslesen
Informationen automatisiert aus Rechnungen extrahieren

A hónap betűkkel van megadva, ahol az első betű mindig nagybetűs. Erre egy szóköz következik, majd a nap, amiután vessző következik, majd újabb szóköz, majd az év.

Például: Sep 20, 2019 vagy Mär 05, 2022


Az adat kinyeréséhez a következő reguláris kifejezést (REGEX) használhatjuk:

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Részekre bontjuk az egyes csoportokat. Ezeket a csoportokat egyszerű zárójelekkel () választjuk el egymástól.

Az első csoportban a 3 betűs hónapneveket keressük: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Hónap kinyerése

  • [A-Z] Ez a karakterlánc azt jelenti, hogy keresni fogunk egy nagybetűt az „A” és „Z” között. Például a „S“ betűt a „Sept“ szóból. Fontos tudni, hogy a kis- és nagybetű külön kezelt.
  • [a-zä]{2} Ez a karakterlánc azt jelenti, hogy két kisbetűt keresünk az a és z betűk között, valamint az ä karaktert (a „März“ hónapnév német nyelven). Ez lehet a „ep“ a „Sep“ szóból vagy a „är“ a „Mär“ német szóból.

Azután keresünk egy szóközt a következő karakterlánccal: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Nap kinyerése

A második csoportban számokkal keresünk az adott napot megjelölő feliratot: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

A dátumot 3 különböző utasítással kell elválasztani.
Mivel nem tudhatjuk, hogy a dokumentumban milyen dátum található (lehet az hónap első napja (01) vagy az utolsó napja (31)), ezért különböző lehetőségeket kell megadni.
Ezeket az opciókat a „|” karakterrel választjuk el.
Példa: (1|2|3) = 1 vagy 2 vagy 3.

Szögletes zárójelben megadhatunk egy megengedett karakterekből álló listát. Több szögletes zárójel több karakterre vonatkozik.Ha egy kifejezés több karaktert ír le, akkor ezek egymás után következnek. Az összehasonlítás balról jobbra történik.

Természetesen nem mindig kell mindegyik számot felsorolni. A klózok általánosságban csak egy karakterre vonatkoznak.

  • 0[1-9] Ez a karakterlánc azt jelenti, hogy a szám egy „0” karakterrel kezdődhet, és utána bármelyik szám lehet 1 és 9 között. Tehát bármelyik szám 01 és 09 között.
  • Ez a karakterlánc egy mintát keres, amely egy nulla karakterrel kezdődik. Ha a dokumentumnak alapvetően úgy kell megadnia a dátumot, hogy „2022. március 5.”, és nem tartalmazza azt, hogy a „5” szám előtt álljon a „0”, akkor a karakterláncban a „0” karaktert elhagyjuk.

  • [12][0-9] Ez a karakterlánc azt jelenti, hogy a szám egy „1” vagy „2” karakterrel kezdődhet, és utána bármelyik szám lehet 0 és 9 között. Eredményként bármelyik szám 10 és 29 között kapható.
  • 3[01] Ez a karakterlánc azt jelenti, hogy a szám egy „3” karakterrel kezdődhet, és utána egy „0” vagy „1” karakter következik. Eredményként a 30 vagy 31 lehet.

A napot követően az évet kell meghatározni.

A következő lépésben a vesszőt és a szóközt keresjük: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Évszám kinyerése

Az utolsó csoport

Rendelésszám kinyerése REGEX segítségével

Mint további példát mutatunk, szeretnénk kinyerni a rendelésszámot a dokumentumból.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Auftragsnummern werden aus dem Dokument extrahiert

A rendelésszám a dokumentumunkon a következő formában van formázva:

Ez mindig a XYB nagybetűkkel kezdődik, utána következik egy kötőjel, majd 8 számjegy, egy további kötőjel, és végül 3 véletlenszerű nagybetű.

A rendelésszám példái:

XYB-12316723-LSH

XYB-98456723-JRD

A rendelésszám kinyeréséhez a következő reguláris kifejezést használhatjuk:

XYB-\d{8}-[A-Z]{3}

Hagyjuk, hogy a kifejezést apránként elemezzük.

Elsőként pontosan megkeressük az első 3 nagybetűt kötőjel-szimbólummal: XYB-

XYB-\d{8}-[A-Z]{3}

Ezt követően 8 számjegyet és egy újabb kötőjelet keresünk: \d{8}-

XYB-\d{8}-[A-Z]{3}

Az \d karakter, amint azt már említettük, 0 és 9 közötti számjegyekre utal, a \d{8} pedig egy 8 jegyű számot keres.

És végül keresünk még 3 tetszőleges nagybetűt: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Tehát a PaperOffice a következő rendelésszámokból:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

az első kettőt XYB-12316723-LSH és XYB-98456723-JRD

fogja felismerni.

Egy Regex101 linket állítottunk össze a példához, amelyen a fenti kifejezés 4 példával van felsorolva. Látható, hogy csak a megadott rendelésszámok közül kettő felel meg a követelményeknek.

Cikkszámok kinyerése REGEX segítségével

A cikszám a dokumentumunkon a következő formában van formázva:

Állandóan két nagybetűvel kezdődik, utána következik egy kötőjel, majd 6 számjegy.

PaperOffice Rechnung mit Regex zu auslesen
Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

A cikkszám példái:

MS-863398

DS-452829

A cikkszámok kinyeréséhez a következő reguláris kifejezést használhatjuk:

[A-Z]{2}-\d{6}

A PaperOffice digitalizálja dokumentumait és integrálja rendszereibe, automatizálva a számlák és más dokumentumok adatainak kinyerését, anélkül, hogy sok-sok kódot kellene írni és utána karban tartani.

Vegye fel velünk a kapcsolatot, hogy beszéljünk alkalmazási eseteiről, és hogy többet megtudjon arról, hogyan segíthet a PaperOffice abban, hogy a digitális korban is versenyképes legyen.

Nyújtson be, egyszerűbb, mint gondolná.

Még mindig aggódik amiatt, hogy nem sikerül? Olvassa el ügyfeleink esettanulmányait, amelyek a PaperOffice integrációjáról a mindennapi munkához, és győződjön meg saját maga a könnyed használatról, vagy kérjen egy teszt telepítést.

FAQs

Végezetül válaszolunk néhány gyakran feltett kérdésre a témában "Használjon reguláris kifejezéseket REGEX automatizált adatgyűjtéshez és adatkinyeréshez (2. rész)":

Kinek alkalmas a papír nélküli iroda?

A gyors és egyszerű válasz a kérdésre az, hogy minden vállalkozásnak. Az összes iparágra és méretre vonatkozik, a kkv-k, a startupok és a nagyvállalatok is elnyerhetik a papírmentes iroda előnyeit. Különösen értékes az átállás számára a kis és közepes vállalkozások számára: A feldolgozási idő, költségek és szükséges költségvetés csökkentése lehetővé teszi a további növekedési lendület előmozdítását.

Használhatok felhőalapú dokumentumkezelő rendszert vállalkozásom papírmentes irodájához?

Nem. Egy további tényező, amely különösen 2018-ban, a GDPR végleges hatályba lépését követően került előtérbe, az adatvédelem. A dokumentumkezelő rendszerek és a dokumentumszoftverek dokumentumok feldolgozására, kezelésére és tárolására szolgálnak, amelyek gyakran tartalmaznak érzékeny, személyes adatokat. Az adatvédelmi rendelet megsértése esetén komoly pénzbírságokat vet ki a törvényhozó.

Következtetés

  • Az előnyök indokolják a kiadásokat és a költségeket

    A digitális munkavégzés és régi dokumentumok az új korszakba történő átvitele a legjobb kulcsberuházás lesz a következő hihetetlenül sok idő, pénz és ideg takarításához a jövőben.

  • Szüksége van valakire, aki ért hozzá

    Nem szükséges saját IT szakember azok kihasználásához a digitálizálás előnyeihez.
    Az Önnek szüksége van megfelelő partnerre, akinek tapasztalatai alapján pontosan meg tudja valósítani az Ön által szükségeseket. Kerülje a pánikot keltőket és válasszon tesztkonfigurációkat, ahelyett, hogy csak csinos PowerPoint bemutatók alapján döntené meg teszt nélkül.

  • A hardver általában már rendelkezésre áll

    Tapasztalat szerint majdnem minden vállalkozásnak, cégnek és vállalatnak van egy nagy teljesítményű másolója, amelynek képességeit nem használja ki. Ezek a gépek nagy mennyiségben történő beolvasásokat is szeretik, toleránsak a kampókra nézve, és lehetnek a digitális indításhoz egy szkennelőgép beruházása nélkül.

  • Megfizethetőbb, mint gondolta a megfelelő DMS-szel

    Kerülje a költséghidakat DMS / ECM rendszerek esetében, amelyekben kíméletlenül ki vannak szolgáltatva a gyártóknak. Ne tegyen engedményeket a saját adminisztrációs képességeket illetően, mint pl. a dokumentumok tanulása és beállítások elvégzése. Ha segítségre van szüksége, a gyártó szívesen segít, de maradjon önálló és független.

  • A digitális automatizálás a jövő

    A folyamatok jövőben teljesen azonosak lesznek, de teljesen automatizáltan fognak futni.
    Beérkezik a számla? A munkafolyamat elindul és minden végigmegy az előre definiált úton.
    Minden 1000 mappát áttekinteni? Semmi probléma, mert önnek van saját Google-je!

PaperOffice minden problémát megold: garantált.

Ügyfél bemutatása

Digitális változás a termékfejlesztésben - sikeres dokumentumkezelés

"Az iparban a digitalizáció témája egyre inkább észrevehetővé válik. Ez vonatkozik például a műszaki adatlapjainkra, az ügyféladatokra, a számításokra vagy a terveinkre, rajzainkra és konfigurációinkra. A PaperOffice DMS bevezetése után a kézi erőfeszítés csökkenthető. Most úttörők vagyunk a digitalizációban a gyártó vállalatoknál, az Ipar 4.0-nál."

Antonio Jesús Sánchez
a Butterfly Engineers S.L. ügyvezető igazgatója
termék- és folyamatmérnöke.