Uporabite redne izraze REGEX za samodejni zajem in ekstrakcijo podatkov (Del 2)
Najvišje možne ponudbe popustov
Izključne novice od znotraj
Brezplačne nadgradnje bonifikacije
Najvišje možne ponudbe popustov
Izključne novice od znotraj
Brezplačne nadgradnje bonifikacije
Prijateljstvo Zaupanje Častna beseda
Nikoli ne bomo posredovali vašega e-poštnega naslova nikomur drugemu in vsako e-pošto vsebuje povezavo za enostavno odjavo.
V tem članku vam bomo pokazali, kako lahko uporabite regularne izraze za izkoristek avtomatizirane obdelave dokumentov. To velja zlasti za dokumente podjetij v kateri koli panogi.
Prikazali vam bomo natančne primere uporabe regulatnih izrazov in korak za korakom pojasnili njihov pomen ter kako jih lahko uporabite.
S tem lahko povečate učinkovitost poslovanja, zmanjšate človeške napake zaradi večje natančnosti, zmanjšate sedanje stroške, ohranite celovitost podatkov in izboljšate varnost podatkov.
Trenutni članek nadaljuje z uvodnim delom o pametni obdelavi dokumentov, tukaj dostopate do članka.
Izvlečenje določenih podatkovnih elementov iz dokumentov lahko predstavlja zelo drag in časovno intenziven postopek. Pogosto se skenirane dokumente pošilja velikim podjetjem za zajem podatkov iz dokumentov, kjer se podatke vnese ročno.
Vendar pa obstajajo različne pomanjkljivosti tega pristopa, kot na primer:
Med mnogimi drugimi.
Kljub prevladi skeniranja velik del poslovnih transakcij še vedno temelji na papirnatih dokumentih. Ocena je, da se 85% računov še vedno izdaja na papirju.
Poleg tega obstaja velika količina obstoječega papirja, ki ga je treba shranjevati v ogromnih skladiščih!
Regularni izrazi, imenovani tudi "Regex", so močno orodje za iskanje in manipulacijo besedil. Omogočajo zaznavanje in urejanje kompleksnih vzorcev v besedilih.
Regularni izraz je sestavljen iz kombinacije običajnih črk in posebnih meta znakov, ki imajo posebne funkcije.
Regularne izraze lahko uporabimo tudi za zamenjavo ali manipulacijo besedila. Na primer, z regularnim izrazom lahko naredimo naslednje.
Gre za zelo močno orodje za obdelavo besedila in avtomatizacijo nalog.
Povečanje digitalnih dokumentov z različnimi vrstami, različnimi pravili za poimenovanje in pomanjkanjem ustreznega sistema za iskanje otežuje postopek iskanja in izločanja informacij iz dokumenta, zlasti če gre za nedokumentirane dokumente, iskanje je netočno in dolgotrajno.
Tako se vsebina dokumenta išče in izlušči po določenem nizu znakov.Regularni izrazi ponujajo način definiranja vzorcev v informacijah z uporabo posebnih simbolov.
Metoda Regex je najbolj primerna za dokumente, kjer se lahko položaji izluščenih vrednosti razlikujejo in preproste predloge dokumentov se ne ujemajo.
Seznam preprostih izrazov najdete na naši ComDesk.
Regularen izraz se lahko sestavi na različne načine, odvisno od vrste vzorca, ki ga iščemo.
Uporaba meta znakov, kot so ., *, +, ?, ^, $, [] in [a-z], za predstavitev določenih vrst znakov ali vzorcev.
Uporaba izbirnih delov: Uporabite vprašaj (?), ali zvezdico (*) za izbirne dele vzorca.
Uporaba skupin: Uporabite oklepaje, da združite dele vzorca in jih obravnavate kot enoto.
Pomembno je opozoriti, da se pravila za regularne izraze lahko razlikujejo glede na uporabljene programske jezike. Zato je pomembno prebrati dokumentacijo orodij, ki jih uporabljate. Regex, ki so napisani za PaperOffice, morajo biti združljivi z ECMAScript in PCRE2.
Nasvet
Na temo "Automatski shranjevanje dokumentov / REGEX & spremenljivke / avtomatizacija obdelave računov" obstaja tudi video na YouTube, ki ta postopek enostavno in razumljivo pojasnjuje:
V tem članku vam bomo predstavili, kako lahko z večsezonskimi regularnimi izrazi v PaperOffice iz dokumenta izvlečete katere koli podatke in jih samodejno vstavite kot oznako za dokument.
Spodaj smo ustvarili vzorčni dokument, ki vsebuje določen datum. V tem dokumentu gre za račun. Vzorec datuma na našem dokumentu je oblikovan takole:
Mesec, sestavljen iz črk, vendar je prva črka vedno velika, nato sledi presledek, nato dan, nato vejica, nato še en presledek in nato leto.
Na primer: Sep 20, 2019 ali Mär 05, 2022
Za izvlečenje tega datuma lahko uporabimo naslednji regularni izraz (REGEX):
Razčlenili bomo izraz na posamezne skupine. Te skupine so ločene z navadnimi oklepaji ().
V prvi skupini iščemo 3-mestno črkovno kratico za mesec: ([A-Z][a-zä]{2})
Nato iščemo presledek s to verigo: \s
V drugi skupini iščemo številsko oznako dneva: (0[1-9]|[12][0-9]|3[01])
Oznaka dneva mora biti razdeljena s tremi različnimi navodili.
Ker ne vemo, katera oznaka dneva se lahko pojavi v dokumentu, se lahko pojavi prvi dan (01) ali pa zadnji dan (31) meseca, zato je treba določiti več možnosti.
Te možnosti so ločene z znakom „|“.
Primer: (1|2|3) = 1 ali 2 ali 3.
V oglatih oklepajih je naveden seznam dovoljenih znakov. Več pravokotnih oklepajev ustreza več znakom. Če izraz opisuje več znakov, jih enostavno združimo zaporedoma. Nato se vnos primerja z izrazom od leve proti desni.
Seveda ni vedno treba navesti vseh številk. Skupno gledano, naveden celoten obseg izraza z oklepajem velja samo za en znak.
Veriga išče vzorec številk, ki se začne z ničlo. Če vaš dokument običajno vsebuje datumske zapisnike "5. marca 2022", torej brez »0« pred številko »5«, se »0« v verigi izpusti.
Po določitvi možnosti za dan je treba določiti izraz za leto.
Zdaj iščemo vejico in presledek: ,\s
V zadnji skupini iščemo leto: (20\d{2})
Začnemo iskati poljubno leto, vendar vemo, da bo ≥ 2000.
Kot naslednji primer želimo brati številko naročila iz dokumenta.
Številko naročila na našem dokumentu je oblikovana na naslednji način:
Vedno se začne z velikimi črkami XYB, po katerih sledi vezaj, nato pa 8 številk, še en vezaj in na koncu 3 naključni veliki črki.
Primeri številk naročil bi bili:
XYB-12316723-LSH
XYB-98456723-JRD
Za izvleček te številke naročila uporabimo naslednji regex:
Razčlenimo izraz po delih.
Najprej iščemo točno prvih 3 velike črke v kombinaciji z vezajem: XYB-
Nato iščemo še 8 števk, ki jim sledi vezaj: \d{8}-
Znak \d, kot smo že pojasnili, označuje številko od 0 do 9, \d{8} pa pomeni iskanje osmim mestnim številom.
In na koncu iščemo še 3 poljubne velike črke: [A-Z]{3}
PaperOffice bo torej iz sledečih številk naročil:
XYB-12316723-LSH
XYB-98456723-JRD
XYB-975432671829
ZYB-12342176-ZHD
prepoznal prvi dve XYB-12316723-LSH in XYB-98456723-JRD
Kot primer smo pripravljeni tudi Regex101 povezavo za ta primer, kjer smo navedeni regulanri izraz preverili s štirimi primeri. Vidite, da se samo dva od štirih navedenih številk naročil ujemata z našimi zahtevami.
Številka artikla na našem dokumentu je oblikovana na naslednji način:
Vedno se začne z dvema velikima črkama, za njima sledi vezaj, nato pa še 6 števk.
Primeri številk artiklov bi bili:
MS-863398
DS-452829
Za izvleček teh številk artiklov uporabimo naslednji regex:
PaperOffice lahko digitalizira vaše dokumente in jih integrira v vaše sisteme, da avtomatizira izvleček podatkov iz računov in drugih dokumentov, brez pisanja velike količine kode in njenega vzdrževanja.
Obrnite se na nas, da se pogovorimo o svojih uporabniških primerih in se naučite več o tem, kako vam PaperOffice lahko pomaga postati konkurenčnejši v digitalni dobi.
Začeti je lažje, kot si mislite.
Še vedno dvomite, da sami ne boste zmogli? Preberite si študije primerov naših strank o integracijah PaperOffice v svoj poslovni proces in se prepričate sami o enostavnosti ali pa enostavno zahtevajte testno namestitvijo.
ERROR: LID-5759 missing
ERROR: LID-6036 missing
ERROR: LID-6035 missing
ERROR: LID-5763 missing
ERROR: LID-6039 missing
ERROR: LID-6035 missing
ERROR: LID-5756 missing
ERROR: LID-6042 missing
ERROR: LID-5803 missing
ERROR: LID-5793 missing
ERROR: LID-6069 missing
ERROR: LID-6070 missing
ERROR: LID-5787 missing
ERROR: LID-6072 missing
ERROR: LID-6035 missing
ERROR: LID-5789 missing
ERROR: LID-6077 missing
ERROR: LID-6070 missing
ERROR: LID-6074 missing
ERROR: LID-5771 missing
ERROR: LID-6075 missing
ERROR: LID-6035 missing
ERROR: LID-5777 missing
ERROR: LID-5759 missing
ERROR: LID-5763 missing
ERROR: LID-5800 missing
ERROR: LID-5769 missing
ERROR: LID-6082 missing
ERROR: LID-6083 missing