Uporabite redne izraze REGEX za samodejni zajem in ekstrakcijo podatkov (Del 2)

V tem članku vam bomo pokazali, kako lahko uporabite regularne izraze za izkoristek avtomatizirane obdelave dokumentov. To velja zlasti za dokumente podjetij v kateri koli panogi.

Prikazali vam bomo natančne primere uporabe regulatnih izrazov in korak za korakom pojasnili njihov pomen ter kako jih lahko uporabite.

S tem lahko povečate učinkovitost poslovanja, zmanjšate človeške napake zaradi večje natančnosti, zmanjšate sedanje stroške, ohranite celovitost podatkov in izboljšate varnost podatkov.

Trenutni članek nadaljuje z uvodnim delom o pametni obdelavi dokumentov, tukaj dostopate do članka.

Izvlečenje določenih podatkovnih elementov iz dokumentov lahko predstavlja zelo drag in časovno intenziven postopek. Pogosto se skenirane dokumente pošilja velikim podjetjem za zajem podatkov iz dokumentov, kjer se podatke vnese ročno.

Vendar pa obstajajo različne pomanjkljivosti tega pristopa, kot na primer:

To lahko ogrozi varnost dokumentov
Uvedba zamude v delovnih tokovih
V primerjavi z avtomatizirano ekstrakcijo je ročno indeksiranje počasen proces
Ročno indeksiranje ne deluje dobro pri velikih projektih
Ročno indeksiranje lahko v podatke vnese napake
Ko je dokument spremenjen, se postopek začne znova

Med mnogimi drugimi.

Kljub prevladi skeniranja velik del poslovnih transakcij še vedno temelji na papirnatih dokumentih. Ocena je, da se 85% računov še vedno izdaja na papirju.

Poleg tega obstaja velika količina obstoječega papirja, ki ga je treba shranjevati v ogromnih skladiščih!

Kaj je regularen izraz?

Regularni izrazi, imenovani tudi "Regex", so močno orodje za iskanje in manipulacijo besedil. Omogočajo zaznavanje in urejanje kompleksnih vzorcev v besedilih.

Regularni izraz je sestavljen iz kombinacije običajnih črk in posebnih meta znakov, ki imajo posebne funkcije.

Regularne izraze lahko uporabimo tudi za zamenjavo ali manipulacijo besedila. Na primer, z regularnim izrazom lahko naredimo naslednje.

Gre za zelo močno orodje za obdelavo besedila in avtomatizacijo nalog.

Kako lahko regularen izraz koristi podjetju pri avtomatizaciji?

Povečanje digitalnih dokumentov z različnimi vrstami, različnimi pravili za poimenovanje in pomanjkanjem ustreznega sistema za iskanje otežuje postopek iskanja in izločanja informacij iz dokumenta, zlasti če gre za nedokumentirane dokumente, iskanje je netočno in dolgotrajno.

Regularne izraze (Regex) ponujajo hiter in zmogljiv način iskanja, izluščevanja in nadomeščanja določenih podatkov v dokumentih. Regularni izrazi so poseben zaporedje znakov, ki opisuje iskalni vzorec.

Tako se vsebina dokumenta išče in izlušči po določenem nizu znakov.Regularni izrazi ponujajo način definiranja vzorcev v informacijah z uporabo posebnih simbolov.

Metoda Regex je najbolj primerna za dokumente, kjer se lahko položaji izluščenih vrednosti razlikujejo in preproste predloge dokumentov se ne ujemajo.

Seznam preprostih izrazov najdete na naši ComDesk.

Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

Kako lahko sestavim regularen izraz?

Regularen izraz se lahko sestavi na različne načine, odvisno od vrste vzorca, ki ga iščemo.

Uporaba meta znakov, kot so ., *, +, ?, ^, $, [] in [a-z], za predstavitev določenih vrst znakov ali vzorcev.

Uporaba izbirnih delov: Uporabite vprašaj (?), ali zvezdico (*) za izbirne dele vzorca.

Uporaba skupin: Uporabite oklepaje, da združite dele vzorca in jih obravnavate kot enoto.

Pomembno je opozoriti, da se pravila za regularne izraze lahko razlikujejo glede na uporabljene programske jezike. Zato je pomembno prebrati dokumentacijo orodij, ki jih uporabljate. Regex, ki so napisani za PaperOffice, morajo biti združljivi z ECMAScript in PCRE2.

Nasvet

Na temo "Automatski shranjevanje dokumentov / REGEX & spremenljivke / avtomatizacija obdelave računov" obstaja tudi video na YouTube, ki ta postopek enostavno in razumljivo pojasnjuje:

Kako izvlečem informacije iz dokumenta z REGEX-om?

Primeri iz prakse

V tem članku vam bomo predstavili, kako lahko z večsezonskimi regularnimi izrazi v PaperOffice iz dokumenta izvlečete katere koli podatke in jih samodejno vstavite kot oznako za dokument.

Spodaj smo ustvarili vzorčni dokument, ki vsebuje določen datum. V tem dokumentu gre za račun. Vzorec datuma na našem dokumentu je oblikovan takole:

PaperOffice Rechnung mit Regex zu auslesen

Informationen automatisiert aus Rechnungen extrahieren

Mesec, sestavljen iz črk, vendar je prva črka vedno velika, nato sledi presledek, nato dan, nato vejica, nato še en presledek in nato leto.

Na primer: Sep 20, 2019 ali Mär 05, 2022

Za izvlečenje tega datuma lahko uporabimo naslednji regularni izraz (REGEX):

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Razčlenili bomo izraz na posamezne skupine. Te skupine so ločene z navadnimi oklepaji ().

V prvi skupini iščemo 3-mestno črkovno kratico za mesec: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Izvleči mesec

[A-Z] Ta niz pomeni, da iščemo veliko črko od A do Z. Na primer črka „S“ v besedi Sept. Upoštevajte, da je razlikovanje med velikimi in malimi črkami.
[a-zä]{2} Ta niz pomeni, da iščemo dve majhni črki iz območja a-z in tudi ä (za ime meseca v nemškem jeziku „März“). To je ep iz besede „Sep“ ali är iz besede „Mär“.

Nato iščemo presledek s to verigo: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Izvleči dan

V drugi skupini iščemo številsko oznako dneva: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Oznaka dneva mora biti razdeljena s tremi različnimi navodili.
Ker ne vemo, katera oznaka dneva se lahko pojavi v dokumentu, se lahko pojavi prvi dan (01) ali pa zadnji dan (31) meseca, zato je treba določiti več možnosti.
Te možnosti so ločene z znakom „|“.
Primer: (1|2|3) = 1 ali 2 ali 3.

V oglatih oklepajih je naveden seznam dovoljenih znakov. Več pravokotnih oklepajev ustreza več znakom. Če izraz opisuje več znakov, jih enostavno združimo zaporedoma. Nato se vnos primerja z izrazom od leve proti desni.

Seveda ni vedno treba navesti vseh številk. Skupno gledano, naveden celoten obseg izraza z oklepajem velja samo za en znak.

0[1-9] Ta niz pomeni, da se lahko številka začne z „0“, nato sledi številka od 1 do 9. Tako dobimo katero koli število med 01 in 09.

Veriga išče vzorec številk, ki se začne z ničlo. Če vaš dokument običajno vsebuje datumske zapisnike "5. marca 2022", torej brez »0« pred številko »5«, se »0« v verigi izpusti.

[12][0-9] Ta niz pomeni, da se številka lahko začne s „1“ ali „2“, sledi pa ji poljubna številka med 0 in 9. Rezultat je lahko katero koli število od 10 do 29.

3[01] Ta niz pomeni, da se številka lahko začne s „3“, sledi pa ji števka „0“ ali „1“. Rezultat je lahko 30 ali 31.

Po določitvi možnosti za dan je treba določiti izraz za leto.

Zdaj iščemo vejico in presledek: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Izvleči leto

V zadnji skupini iščemo leto: (20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Začnemo iskati poljubno leto, vendar vemo, da bo ≥ 2000.

20 Ta niz pomeni, da iščemo poljub

Branjevnem številko beremo z uporabo REGEX-a

Kot naslednji primer želimo brati številko naročila iz dokumenta.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt

Auftragsnummern werden aus dem Dokument extrahiert

Številko naročila na našem dokumentu je oblikovana na naslednji način:

Vedno se začne z velikimi črkami XYB, po katerih sledi vezaj, nato pa 8 številk, še en vezaj in na koncu 3 naključni veliki črki.

Primeri številk naročil bi bili:

XYB-12316723-LSH

XYB-98456723-JRD

Za izvleček te številke naročila uporabimo naslednji regex:

XYB-\d{8}-[A-Z]{3}

Razčlenimo izraz po delih.

Najprej iščemo točno prvih 3 velike črke v kombinaciji z vezajem: XYB-

XYB-\d{8}-[A-Z]{3}

Nato iščemo še 8 števk, ki jim sledi vezaj: \d{8}-

XYB-\d{8}-[A-Z]{3}

Znak \d, kot smo že pojasnili, označuje številko od 0 do 9, \d{8} pa pomeni iskanje osmim mestnim številom.

In na koncu iščemo še 3 poljubne velike črke: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

PaperOffice bo torej iz sledečih številk naročil:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

prepoznal prvi dve XYB-12316723-LSH in XYB-98456723-JRD

Kot primer smo pripravljeni tudi Regex101 povezavo za ta primer, kjer smo navedeni regulanri izraz preverili s štirimi primeri. Vidite, da se samo dva od štirih navedenih številk naročil ujemata z našimi zahtevami.

Branje številk artiklov z uporabo REGEX-a

Številka artikla na našem dokumentu je oblikovana na naslednji način:

Vedno se začne z dvema velikima črkama, za njima sledi vezaj, nato pa še 6 števk.

Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

Primeri številk artiklov bi bili:

MS-863398

DS-452829

Za izvleček teh številk artiklov uporabimo naslednji regex:

[A-Z]{2}-\d{6}

PaperOffice lahko digitalizira vaše dokumente in jih integrira v vaše sisteme, da avtomatizira izvleček podatkov iz računov in drugih dokumentov, brez pisanja velike količine kode in njenega vzdrževanja.

Obrnite se na nas, da se pogovorimo o svojih uporabniških primerih in se naučite več o tem, kako vam PaperOffice lahko pomaga postati konkurenčnejši v digitalni dobi.

Začeti je lažje, kot si mislite.

Še vedno dvomite, da sami ne boste zmogli? Preberite si študije primerov naših strank o integracijah PaperOffice v svoj poslovni proces in se prepričate sami o enostavnosti ali pa enostavno zahtevajte testno namestitvijo.

Uporabite redne izraze REGEX za samodejni zajem in ekstrakcijo podatkov (Del 2)

Kaj je regularen izraz?

Kako lahko regularen izraz koristi podjetju pri avtomatizaciji?

Kako lahko sestavim regularen izraz?

Kako izvlečem informacije iz dokumenta z REGEX-om?

Primeri iz prakse

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Izvleči mesec

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Izvleči dan

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Izvleči leto

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Branjevnem številko beremo z uporabo REGEX-a

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Branje številk artiklov z uporabo REGEX-a

[A-Z]{2}-\d{6}

ERROR: LID-5754 missing

ERROR: LID-5761 missing

ERROR: LID-5758 missing

ERROR: LID-5797 missing

ERROR: LID-5791 missing

ERROR: LID-5785 missing

ERROR: LID-5790 missing

ERROR: LID-5780 missing

ERROR: LID-5758 missing

ERROR: LID-5775 missing

ERROR: LID-6029 missing

ERROR: LID-5764 missing

ERROR: LID-5801 missing

ERROR: LID-5768 missing