Bruk av regulære uttrykk REGEX for automatisert datainnsamling og -ekstraksjon (Del 2)

I den aktuelle artikkelen viser vi deg hvordan du kan bruke regulære uttrykk for å dra nytte av automatisert dokumentbehandling. Dette gjelder spesielt for dokumenter fra alle typer bedrifter.

Vi gir deg presise eksempler på regulære uttrykk og forklarer trinn for trinn hva de betyr og hvordan du kan bruke dem.

På denne måten kan du øke driftseffektiviteten, redusere menneskelige feil ved å øke nøyaktigheten, senke gjeldende kostnader, bevare dataintegriteten og forbedre datasikkerheten.

Den aktuelle artikkelen utvider den første delen om intelligent dokumentbehandling, du kan gå direkte til artikkelen her.

Å trekke ut spesifikke dataelementer fra dokumenter kan være en svært kostbar og tidkrevende oppgave. Ofte blir skanninger av dokumenter sendt til store outsourcing-datafangstfirmaer hvor dataene blir lagt inn manuelt.

Det er imidlertid ulike ulemper med denne tilnærmingen, som følger:

Dokumentets sikkerhet kan være truet
Det innføres en forsinkelse i arbeidsflytprosesser
Sammenlignet med automatisert utvinning er manuell indeksering en treg prosess
Manuell indeksering kan ikke skaleres godt for store prosjekter
Manuell indeksering kan introdusere feil i dataene
Hvis et dokument blir endret, må hele prosessen startes på nytt

Samt mange flere.

Tross utbredelsen av skanning, er det fortsatt en stor del av forretningsvirksomheten som baserer seg på papirbaserte dokumenter. Det anslås at 85% av fakturaer fortsatt blir utstedt på papir.

I tillegg er det en haug med eksisterende papirer som må lagres i enorme lager!

Hva er et regulært uttrykk?

Regulære uttrykk, også kjent som "Regex," er et kraftig verktøy for å søke og manipulere tekst. De gjør det mulig å gjenkjenne og redigere komplekse mønstre i tekster.

Et regulært uttrykk består av en kombinasjon av vanlige bokstaver og spesielle metategn som har spesielle funksjoner.

Regulære uttrykk kan også brukes til å erstatte eller manipulere tekst. For eksempel kan et regulært uttrykk brukes til å:

De er et meget kraftig verktøy for tekstbehandling og automatisering av oppgaver.

Hvordan kan regulære uttrykk hjelpe bedrifters automatisering?

Økningen av digitale dokumenter med forskjellige typer, forskjellige navngivingsregler og manglende søkesystem gjør søkeprosessen og utvinningen av dokumentinformasjon fra bestemte innhold vanskelig, spesielt når det gjelder uklassifiserte dokumenter, blir søket unøyaktig og tar lang tid.

Regulære uttrykk (Regex) gir en rask og kraftig metode for å søke, ekstrahere og erstatte bestemte data i dokumenter. Regulære uttrykk er i utgangspunktet en spesialtegnstreng som beskriver et søkemønster.

Slik blir dokumentinnholdet søkt etter og utlest med en bestemt tegnstreng. Regulære uttrykk er en måte å definere mønstre i informasjon ved hjelp av spesielle symboler på.

Regex-metoden egner seg best for dokumenter der posisjonene til de utrakkede verdiene kan variere og enkle dokumentmaler ikke fungerer.

Du finner en liste over enkle uttrykk i vår ComDesk.

Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

Hvordan bygge sammen regulære uttrykk?

Regulære uttrykk kan bygges sammen på forskjellige måter, avhengig av hvilken type mønster som søkes.

Bruk metategn som ., *, +, ?, ^, $, [] og [a-z] for å tilsvare visse typer karakterer eller mønstre.

Bruk alternative deler: Bruk spørsmålstegnet (?) eller stjernen (*) for å gjøre deler av mønsteret valgfritt.

Bruk grupper: Bruk parenteser for å gruppere deler av mønsteret og behandle dem som en enhet.

Merk at reglene for regulære uttrykk kan variere avhengig av programmeringsspråket. Så det er viktig å lese dokumentasjonen for de verktøyene som brukes. Regex uttrykkene som er skrevet for PaperOffice må være kompatible med ECMAScript og PCRE2.

Tips

Når det gjelder "Automatisert DOKUMENTLAGRING / REGEX & Variabler / Automatisert fakturabehandling" er det også en video på YouTube som forklarer denne prosessen enkelt og forståelig:

Hvordan kan jeg ekstrahere informasjon fra dokumentet mitt med REGEX?

Praktiske eksempler

I denne artikkelen vil vi vise deg hvordan du kan ekstrahere hvilken som helst data fra et dokument i PaperOffice ved hjelp av flerleddet regulæruttrykk og deretter automatisk bruke dataene som nøkkelord for dokumentet.

Nedenfor har vi opprettet et eksempeldokument som har en spesifikk dato. Dette dokumentet inneholder en faktura. Datoformatet i dokumentet vårt er som følger:

PaperOffice Rechnung mit Regex zu auslesen

Informationen automatisiert aus Rechnungen extrahieren

Måned bestående av bokstaver, men hvor den første bokstaven alltid er stor, etterfulgt av et mellomrom, deretter dag etterfulgt av komma og et ytterligere mellomrom, og til slutt året.

For eksempel: Sep 20, 2019 eller Mär 05, 2022

For å ekstrahere denne datoen, kan vi bruke følgende regulære uttrykk (REGEX):

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

La oss bryte uttrykket ned i separate grupper. Disse gruppene er skilt med vanlige parenteser ().

I den første gruppen søker vi etter de 3 bokstavene som representerer måneden: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Ekstrahere måneden

[A-Z] Denne strengen betyr at vi søker etter en stor bokstav fra A til Z. For eksempel bokstaven „S“ i Sept. Vær oppmerksom på at store og små bokstaver behandles separat.
[a-zä]{2} Denne strengen betyr at vi søker etter to små bokstaver fra a til z og også ä (for månedsnavnet i det tyske språket „März“). Dette vil være ep fra „Sep“ eller är fra det tyske „Mär“.

Deretter søker vi etter et mellomrom ved hjelp av følgende streng: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Ekstrahere dagen

I den andre gruppen søker vi etter tallverdien som representerer dagen: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Dagen må være delt inn i tre separate muligheter. Ettersom vi ikke vet hvilken dato som kan vises i dokumentet, kan det være den første dagen (01), eller den siste dagen (31) i måneden, så vi må legge til flere alternativer for datoen.Disse alternativene separeres med symbolet „|“.Som et eksempel: (1|2|3) = 1 eller 2 eller 3.

Inne i firkantede parenteser følger en liste over tillatte tegn. Flere sett med firkantede parenteser betyr flere tegn. Hvis et uttrykk skal inneholde flere tegn, listes de etter hverandre. Databehandlingen går deretter fra venstre mot høyre og sammenligner hver inndatan.

Naturligvis trenger du heller ikke å inkludere alle tall. Samlet sett er hele den klammerede uttrykket representert som ett tegn.

0[1-9] Denne strengen betyr at tallet kan starte med „0“, etterfulgt av et tall fra 1 til 9. Dermed kan vi få hvilket som helst tall fra 01-09.

Uttrykket søker etter et mønster som begynner med „0“. Hvis dokumentet ditt normalt inneholder en dato „5. Mars 2022“, uten at tallet „0“ er plassert foran tallet „5“, vil du kunne utelate tallet „0“ i det klammererte uttrykket.

[12][0-9] Denne strengen betyr at tallet kan begynne med „1“ eller „2“, etterfulgt av et hvilket som helst tall mellom 0 og 9. Som et resultat kan hvilket som helst tall fra 10 til 29 bli funnet.

3[01] Denne strengen betyr at tallet kan begynne med „3“, etterfulgt av „0“ eller „1“. Resultatet kan være 30 eller 31.

Etter at datomulighetene er definert, må du spesifisere uttrykket for året.

Deretter søker vi etter kommaet og mellomrommet: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Ekstrahere året

I den siste gruppen søker vi etter året: (20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Vi begynner med å søke etter et hvilket som helst år, men vi vet at det vil være ≥ 2000.

20 Denne strengen betyr at vi søker etter et hvilket som helst år, som begynner med 20.

\d{2} Denne strengen betyr at vi søker etter et mulig tosifret tall, altså fra „00“ til „99“.

Tegnet \d betyr for eksempel et siffer mellom 0 og 9, og teg

Les ordrenummer ved hjelp av REGEX

Som et annet eksempel vil vi lese ut ordrenummeret fra dokumentet.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt

Auftragsnummern werden aus dem Dokument extrahiert

Ordrenummeret på dokumentet vårt er formatert som følger:

Det begynner alltid med store bokstaver XYB, etterfulgt av en bindestrek, deretter 8 tall, en annen bindestrek og til slutt 3 tilfeldige store bokstaver.

Eksempler på ordrenumre kan være:

XYB-12316723-LSH

XYB-98456723-JRD

For å ekstrahere dette ordrenummeret kan vi bruke følgende regulære uttrykk:

XYB-\d{8}-[A-Z]{3}

La oss bryte uttrykket ned.

Først søker vi nøyaktig de første 3 store bokstavene med bindestrek-symbolet: XYB-

XYB-\d{8}-[A-Z]{3}

Deretter søker vi etter 8 tall etterfulgt av en annen bindestrek: \d{8}-

XYB-\d{8}-[A-Z]{3}

Tegnet \d, som tidligere nevnt, står for et tall mellom 0 og 9, igjen søker tegnet \d{8} etter åtte-sifret tall.

Og til slutt søker vi etter 3 vilkårlige store bokstaver: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Slik vil PaperOffice kunne kjenne igjen de to første ordrenummene XYB-12316723-LSH og XYB-98456723-JRD fra følgende ordrenumre:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

Vi har forberedt en lenke til Regex101 med det nevnte regulære uttrykket og 4 eksempler. Du vil se at bare to av de angitte ordrenummrene oppfyller kravene våre.

Les artikkelnumre ved hjelp av REGEX

Artikkelnummeret på vårt dokument er formatert som følger:

Det begynner alltid med to store bokstaver, etterfulgt av en bindestrek, deretter 6 tall.

Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

Eksempler på artikkelnumre kan være:

MS-863398

DS-452829

For å ekstrahere disse artikkelnumrene kan vi bruke følgende regulære uttrykk:

[A-Z]{2}-\d{6}

PaperOffice kan digitalisere og integrere dokumentene dine i systemene dine for å automatisere dataekstraksjonen fra fakturaer og andre dokumenter, uten å måtte skrive og vedlikeholde utallige koder.

Kontakt oss for å diskutere dine bruksområder og lære mer om hvordan PaperOffice kan hjelpe deg med å være enda mer konkurransedyktige i den digitale tidsalderen.

Det er enklere å komme i gang enn du tror.

Er du fortsatt bekymret for at du ikke vil klare det? Les våre kundecase-studier om PaperOffice-integrasjon i bedriftslivet ditt og se selv hvor enkelt det er, eller be om en prøveinstallasjon.

Bruk av regulære uttrykk REGEX for automatisert datainnsamling og -ekstraksjon (Del 2)

Hva er et regulært uttrykk?

Hvordan kan regulære uttrykk hjelpe bedrifters automatisering?

Hvordan bygge sammen regulære uttrykk?

Hvordan kan jeg ekstrahere informasjon fra dokumentet mitt med REGEX?

Praktiske eksempler

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Ekstrahere måneden

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Ekstrahere dagen

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Ekstrahere året

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Les ordrenummer ved hjelp av REGEX

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Les artikkelnumre ved hjelp av REGEX

[A-Z]{2}-\d{6}

ERROR: LID-5754 missing

ERROR: LID-5761 missing

ERROR: LID-5758 missing

ERROR: LID-5797 missing

ERROR: LID-5791 missing

ERROR: LID-5785 missing

ERROR: LID-5790 missing

ERROR: LID-5780 missing

ERROR: LID-5758 missing

ERROR: LID-5775 missing

ERROR: LID-6029 missing

ERROR: LID-5764 missing

ERROR: LID-5801 missing

ERROR: LID-5768 missing