The PaperOffice Informatorjski bilten
The PaperOffice Informatorjski bilten
Želimo postati prijatelji

Najvišje možne ponudbe popustov

Izključne novice od znotraj

Brezplačne nadgradnje bonifikacije

Najvišje možne ponudbe popustov

Izključne novice od znotraj

Brezplačne nadgradnje bonifikacije

Prijateljstvo Zaupanje Častna beseda
Nikoli ne bomo posredovali vašega e-poštnega naslova nikomur drugemu in vsako e-pošto vsebuje povezavo za enostavno odjavo.

Inteligentno opravljanje obdelave dokumentov


Nasvet strokovnjaka

Avtomatizirano zajemanje podatkov z regularnimi izrazi: Kako učinkovito obdelovati velike količine podatkov s pomočjo regularnih izrazov.


Ključ do avtomatiziranega zajemanja podatkov in ekstrakcije podatkov.

V tem članku vam bomo pokazali, kako lahko uporabite regularne izraze za izkoristek avtomatizirane obdelave dokumentov. To velja zlasti za dokumente podjetij v kateri koli panogi.

Prikazali vam bomo natančne primere uporabe regulatnih izrazov in korak za korakom pojasnili njihov pomen ter kako jih lahko uporabite.

S tem lahko povečate učinkovitost poslovanja, zmanjšate človeške napake zaradi večje natančnosti, zmanjšate sedanje stroške, ohranite celovitost podatkov in izboljšate varnost podatkov.

Trenutni članek nadaljuje z uvodnim delom o pametni obdelavi dokumentov, tukaj dostopate do članka.

Izvlečenje določenih podatkovnih elementov iz dokumentov lahko predstavlja zelo drag in časovno intenziven postopek. Pogosto se skenirane dokumente pošilja velikim podjetjem za zajem podatkov iz dokumentov, kjer se podatke vnese ročno.

Vendar pa obstajajo različne pomanjkljivosti tega pristopa, kot na primer:

  • To lahko ogrozi varnost dokumentov
  • Uvedba zamude v delovnih tokovih
  • V primerjavi z avtomatizirano ekstrakcijo je ročno indeksiranje počasen proces
  • Ročno indeksiranje ne deluje dobro pri velikih projektih
  • Ročno indeksiranje lahko v podatke vnese napake
  • Ko je dokument spremenjen, se postopek začne znova

Med mnogimi drugimi.

Kljub prevladi skeniranja velik del poslovnih transakcij še vedno temelji na papirnatih dokumentih. Ocena je, da se 85% računov še vedno izdaja na papirju.

Poleg tega obstaja velika količina obstoječega papirja, ki ga je treba shranjevati v ogromnih skladiščih!

Kaj je regularen izraz?

Regularni izrazi, imenovani tudi "Regex", so močno orodje za iskanje in manipulacijo besedil. Omogočajo zaznavanje in urejanje kompleksnih vzorcev v besedilih.

Regularni izraz je sestavljen iz kombinacije običajnih črk in posebnih meta znakov, ki imajo posebne funkcije.

Regularne izraze lahko uporabimo tudi za zamenjavo ali manipulacijo besedila. Na primer, z regularnim izrazom lahko naredimo naslednje.

Gre za zelo močno orodje za obdelavo besedila in avtomatizacijo nalog.

Kako lahko regularen izraz koristi podjetju pri avtomatizaciji?

Povečanje digitalnih dokumentov z različnimi vrstami, različnimi pravili za poimenovanje in pomanjkanjem ustreznega sistema za iskanje otežuje postopek iskanja in izločanja informacij iz dokumenta, zlasti če gre za nedokumentirane dokumente, iskanje je netočno in dolgotrajno.

Regularne izraze (Regex) ponujajo hiter in zmogljiv način iskanja, izluščevanja in nadomeščanja določenih podatkov v dokumentih. Regularni izrazi so poseben zaporedje znakov, ki opisuje iskalni vzorec.

Tako se vsebina dokumenta išče in izlušči po določenem nizu znakov.Regularni izrazi ponujajo način definiranja vzorcev v informacijah z uporabo posebnih simbolov.

Metoda Regex je najbolj primerna za dokumente, kjer se lahko položaji izluščenih vrednosti razlikujejo in preproste predloge dokumentov se ne ujemajo.

Seznam preprostih izrazov najdete na naši ComDesk.

PaperOffice Regex Beispielsammlung
Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

Kako lahko sestavim regularen izraz?

Regularen izraz se lahko sestavi na različne načine, odvisno od vrste vzorca, ki ga iščemo.

Uporaba meta znakov, kot so ., *, +, ?, ^, $, [] in [a-z], za predstavitev določenih vrst znakov ali vzorcev.

Uporaba izbirnih delov: Uporabite vprašaj (?), ali zvezdico (*) za izbirne dele vzorca.

Uporaba skupin: Uporabite oklepaje, da združite dele vzorca in jih obravnavate kot enoto.

Pomembno je opozoriti, da se pravila za regularne izraze lahko razlikujejo glede na uporabljene programske jezike. Zato je pomembno prebrati dokumentacijo orodij, ki jih uporabljate. Regex, ki so napisani za PaperOffice, morajo biti združljivi z ECMAScript in PCRE2.

Nasvet

Na temo "Automatski shranjevanje dokumentov / REGEX & spremenljivke / avtomatizacija obdelave računov" obstaja tudi video na YouTube, ki ta postopek enostavno in razumljivo pojasnjuje:

Kako izvlečem informacije iz dokumenta z REGEX-om?

Primeri iz prakse

V tem članku vam bomo predstavili, kako lahko z večsezonskimi regularnimi izrazi v PaperOffice iz dokumenta izvlečete katere koli podatke in jih samodejno vstavite kot oznako za dokument.

Spodaj smo ustvarili vzorčni dokument, ki vsebuje določen datum. V tem dokumentu gre za račun. Vzorec datuma na našem dokumentu je oblikovan takole:

PaperOffice Rechnung mit Regex zu auslesen
Informationen automatisiert aus Rechnungen extrahieren

Mesec, sestavljen iz črk, vendar je prva črka vedno velika, nato sledi presledek, nato dan, nato vejica, nato še en presledek in nato leto.

Na primer: Sep 20, 2019 ali Mär 05, 2022


Za izvlečenje tega datuma lahko uporabimo naslednji regularni izraz (REGEX):

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Razčlenili bomo izraz na posamezne skupine. Te skupine so ločene z navadnimi oklepaji ().

V prvi skupini iščemo 3-mestno črkovno kratico za mesec: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Izvleči mesec

  • [A-Z] Ta niz pomeni, da iščemo veliko črko od A do Z. Na primer črka „S“ v besedi Sept. Upoštevajte, da je razlikovanje med velikimi in malimi črkami.
  • [a-zä]{2} Ta niz pomeni, da iščemo dve majhni črki iz območja a-z in tudi ä (za ime meseca v nemškem jeziku „März“). To je ep iz besede „Sep“ ali är iz besede „Mär“.

Nato iščemo presledek s to verigo: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Izvleči dan

V drugi skupini iščemo številsko oznako dneva: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Oznaka dneva mora biti razdeljena s tremi različnimi navodili.
Ker ne vemo, katera oznaka dneva se lahko pojavi v dokumentu, se lahko pojavi prvi dan (01) ali pa zadnji dan (31) meseca, zato je treba določiti več možnosti.
Te možnosti so ločene z znakom „|“.
Primer: (1|2|3) = 1 ali 2 ali 3.

V oglatih oklepajih je naveden seznam dovoljenih znakov. Več pravokotnih oklepajev ustreza več znakom. Če izraz opisuje več znakov, jih enostavno združimo zaporedoma. Nato se vnos primerja z izrazom od leve proti desni.

Seveda ni vedno treba navesti vseh številk. Skupno gledano, naveden celoten obseg izraza z oklepajem velja samo za en znak.

  • 0[1-9] Ta niz pomeni, da se lahko številka začne z „0“, nato sledi številka od 1 do 9. Tako dobimo katero koli število med 01 in 09.
  • Veriga išče vzorec številk, ki se začne z ničlo. Če vaš dokument običajno vsebuje datumske zapisnike "5. marca 2022", torej brez »0« pred številko »5«, se »0« v verigi izpusti.

  • [12][0-9] Ta niz pomeni, da se številka lahko začne s „1“ ali „2“, sledi pa ji poljubna številka med 0 in 9. Rezultat je lahko katero koli število od 10 do 29.
  • 3[01] Ta niz pomeni, da se številka lahko začne s „3“, sledi pa ji števka „0“ ali „1“. Rezultat je lahko 30 ali 31.

Po določitvi možnosti za dan je treba določiti izraz za leto.

Zdaj iščemo vejico in presledek: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Izvleči leto

V zadnji skupini iščemo leto: (20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Začnemo iskati poljubno leto, vendar vemo, da bo ≥ 2000.

  • 20 Ta niz pomeni, da iščemo poljub

Branjevnem številko beremo z uporabo REGEX-a

Kot naslednji primer želimo brati številko naročila iz dokumenta.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Auftragsnummern werden aus dem Dokument extrahiert

Številko naročila na našem dokumentu je oblikovana na naslednji način:

Vedno se začne z velikimi črkami XYB, po katerih sledi vezaj, nato pa 8 številk, še en vezaj in na koncu 3 naključni veliki črki.

Primeri številk naročil bi bili:

XYB-12316723-LSH

XYB-98456723-JRD

Za izvleček te številke naročila uporabimo naslednji regex:

XYB-\d{8}-[A-Z]{3}

Razčlenimo izraz po delih.

Najprej iščemo točno prvih 3 velike črke v kombinaciji z vezajem: XYB-

XYB-\d{8}-[A-Z]{3}

Nato iščemo še 8 števk, ki jim sledi vezaj: \d{8}-

XYB-\d{8}-[A-Z]{3}

Znak \d, kot smo že pojasnili, označuje številko od 0 do 9, \d{8} pa pomeni iskanje osmim mestnim številom.

In na koncu iščemo še 3 poljubne velike črke: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

PaperOffice bo torej iz sledečih številk naročil:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

prepoznal prvi dve XYB-12316723-LSH in XYB-98456723-JRD

Kot primer smo pripravljeni tudi Regex101 povezavo za ta primer, kjer smo navedeni regulanri izraz preverili s štirimi primeri. Vidite, da se samo dva od štirih navedenih številk naročil ujemata z našimi zahtevami.

Branje številk artiklov z uporabo REGEX-a

Številka artikla na našem dokumentu je oblikovana na naslednji način:

Vedno se začne z dvema velikima črkama, za njima sledi vezaj, nato pa še 6 števk.

PaperOffice Rechnung mit Regex zu auslesen
Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

Primeri številk artiklov bi bili:

MS-863398

DS-452829

Za izvleček teh številk artiklov uporabimo naslednji regex:

[A-Z]{2}-\d{6}

PaperOffice lahko digitalizira vaše dokumente in jih integrira v vaše sisteme, da avtomatizira izvleček podatkov iz računov in drugih dokumentov, brez pisanja velike količine kode in njenega vzdrževanja.

Obrnite se na nas, da se pogovorimo o svojih uporabniških primerih in se naučite več o tem, kako vam PaperOffice lahko pomaga postati konkurenčnejši v digitalni dobi.

Začeti je lažje, kot si mislite.

Še vedno dvomite, da sami ne boste zmogli? Preberite si študije primerov naših strank o integracijah PaperOffice v svoj poslovni proces in se prepričate sami o enostavnosti ali pa enostavno zahtevajte testno namestitvijo.

FAQs

Končno, odgovorimo tudi na nekaj pogosto zastavljenih vprašanj na to temo. "Uporabite redne izraze REGEX za samodejni zajem in ekstrakcijo podatkov (Del 2)":

Za koga je primerna brezpapirna pisarna?

Hitra in preprosta odgovor na to vprašanje je: za vsako podjetje. Brepapirna pisarna koristi vsem področjem in velikostim podjetij, od malih in srednjih podjetij ter začetnih podjetij do velikih podjetij. Še posebej dragocena je prehod za mala in srednja podjetja: zmanjšanje stroškov dela in stroškov osvobodi sredstva za nadaljnje spodbujevalce rasti.

Ali lahko za svojo brezpapirno pisarno v podjetju uporabim ponudnika storitev DMS v oblaku?

Ne. Še en dejavnik, ki je bil povzročen z uveljavitvijo splošne uredbe o varstvu podatkov (DSGVO) leta 2018, je varstvo podatkov. DMS rešitve in DMS programska oprema se uporabljajo za obdelavo, upravljanje in shranjevanje dokumentov, ki pogosto vsebujejo občutljive osebne podatke. Zakonodaja določa visoke denarne kazni za kršitve DSGVO.

Zaključek

  • Prednosti upravičujejo trud in stroške

    Digitalno delo in prenos starih dokumentov v novo dobo bo najboljša ključna naložba za prihodnost, saj bo znatno prihranila čas, denar in živce.

  • Potrebujete nekoga, ki se na to spozna

    Za izkoristek vseh prednosti digitalizacije ne potrebujete lastnega IT-specialista.Vse, kar potrebujete, je pravi partner ob vaši strani, ki lahko s svojimi izkušnjami uresniči, kar potrebujete.Izogibajte se panikarjem in namesto tega raje izberite testiranja namesto bleščečih predstavitev PowerPointa, ki jih niste dejansko testirali.

  • Večinoma že imate potrebno strojno opremo

    Po izkušnjah skoraj vse obrate, podjetja in podjetja že imajo velik kopirni stroj, ki ga ne izkoriščajo. Ti stroji obožujejo masovno skeniranje, so tolerantni glede sponk in lahko služijo kot osnova za digitalni začetek brez naložbe v skenerje.

  • Cene so nižje kot pričakovane z ustreznim DMS-om

    Izognite se pastem stroškov z DMS / ECM sistemi, pri katerih ste v celoti odvisni od proizvajalcev.Ne sklepajte kompromisov glede lastnih administrativnih možnosti, kot je na primer samostojno učenje dokumentov in nastavljanje nastavitev.Če potrebujete pomoč, vam bo proizvajalec z veseljem pomagal, vendar ostanite samostojni in neodvisni.

  • Digitalizacija in avtomatizacija sta prihodnost

    Postopki bodo v prihodnosti potekali povsem enako, vendar popolnoma avtomatizirano.Dobili ste račun? Delovni postopek se sproži in vse gre po že določeni poti.Pregledovanje tisočih map? Ni težav, saj imate svoj Google!

PaperOffice rešuje vsak problem: zagotovljeno.

Slučajna študija

Digitalne spremembe v razvoju izdelkov - uspešno upravljanje dokumentov

"V industriji postaja tema digitalizacije vse bolj opaziti. To velja na primer za naše tehnične podatke, podatke o strankah, izračune ali naše načrte, risbe in konfiguracije. Po uvedbi paperOffice DMS je mogoče ročno prizadevanje zmanjšati. Zdaj smo pionirji digitalizacije v proizvodnih podjetjih, Industrija 4.0."

Antonio Jesús Sánchez
generalni direktor in inženir proizvodov in procesov v Butterfly Engineers S.L.