Bruk av regulære uttrykk REGEX for automatisert datainnsamling og -ekstraksjon (Del 2)
Høyest mulige rabatttilbud
Eksklusive innside-nyheter
Gratis bonusoppgraderinger
Høyest mulige rabatttilbud
Eksklusive innside-nyheter
Gratis bonusoppgraderinger
Vennskap Tillit Æresord
Vi vil aldri gi din e-postadresse til noen andre og hver e-post inkluderer en avmeldingskobling med ett klikk.
I den aktuelle artikkelen viser vi deg hvordan du kan bruke regulære uttrykk for å dra nytte av automatisert dokumentbehandling. Dette gjelder spesielt for dokumenter fra alle typer bedrifter.
Vi gir deg presise eksempler på regulære uttrykk og forklarer trinn for trinn hva de betyr og hvordan du kan bruke dem.
På denne måten kan du øke driftseffektiviteten, redusere menneskelige feil ved å øke nøyaktigheten, senke gjeldende kostnader, bevare dataintegriteten og forbedre datasikkerheten.
Den aktuelle artikkelen utvider den første delen om intelligent dokumentbehandling, du kan gå direkte til artikkelen her.
Å trekke ut spesifikke dataelementer fra dokumenter kan være en svært kostbar og tidkrevende oppgave. Ofte blir skanninger av dokumenter sendt til store outsourcing-datafangstfirmaer hvor dataene blir lagt inn manuelt.
Det er imidlertid ulike ulemper med denne tilnærmingen, som følger:
Samt mange flere.
Tross utbredelsen av skanning, er det fortsatt en stor del av forretningsvirksomheten som baserer seg på papirbaserte dokumenter. Det anslås at 85% av fakturaer fortsatt blir utstedt på papir.
I tillegg er det en haug med eksisterende papirer som må lagres i enorme lager!
Regulære uttrykk, også kjent som "Regex," er et kraftig verktøy for å søke og manipulere tekst. De gjør det mulig å gjenkjenne og redigere komplekse mønstre i tekster.
Et regulært uttrykk består av en kombinasjon av vanlige bokstaver og spesielle metategn som har spesielle funksjoner.
Regulære uttrykk kan også brukes til å erstatte eller manipulere tekst. For eksempel kan et regulært uttrykk brukes til å:
De er et meget kraftig verktøy for tekstbehandling og automatisering av oppgaver.
Økningen av digitale dokumenter med forskjellige typer, forskjellige navngivingsregler og manglende søkesystem gjør søkeprosessen og utvinningen av dokumentinformasjon fra bestemte innhold vanskelig, spesielt når det gjelder uklassifiserte dokumenter, blir søket unøyaktig og tar lang tid.
Slik blir dokumentinnholdet søkt etter og utlest med en bestemt tegnstreng. Regulære uttrykk er en måte å definere mønstre i informasjon ved hjelp av spesielle symboler på.
Regex-metoden egner seg best for dokumenter der posisjonene til de utrakkede verdiene kan variere og enkle dokumentmaler ikke fungerer.
Du finner en liste over enkle uttrykk i vår ComDesk.
Regulære uttrykk kan bygges sammen på forskjellige måter, avhengig av hvilken type mønster som søkes.
Bruk metategn som ., *, +, ?, ^, $, [] og [a-z] for å tilsvare visse typer karakterer eller mønstre.
Bruk alternative deler: Bruk spørsmålstegnet (?) eller stjernen (*) for å gjøre deler av mønsteret valgfritt.
Bruk grupper: Bruk parenteser for å gruppere deler av mønsteret og behandle dem som en enhet.
Merk at reglene for regulære uttrykk kan variere avhengig av programmeringsspråket. Så det er viktig å lese dokumentasjonen for de verktøyene som brukes. Regex uttrykkene som er skrevet for PaperOffice må være kompatible med ECMAScript og PCRE2.
Tips
Når det gjelder "Automatisert DOKUMENTLAGRING / REGEX & Variabler / Automatisert fakturabehandling" er det også en video på YouTube som forklarer denne prosessen enkelt og forståelig:
I denne artikkelen vil vi vise deg hvordan du kan ekstrahere hvilken som helst data fra et dokument i PaperOffice ved hjelp av flerleddet regulæruttrykk og deretter automatisk bruke dataene som nøkkelord for dokumentet.
Nedenfor har vi opprettet et eksempeldokument som har en spesifikk dato. Dette dokumentet inneholder en faktura. Datoformatet i dokumentet vårt er som følger:
Måned bestående av bokstaver, men hvor den første bokstaven alltid er stor, etterfulgt av et mellomrom, deretter dag etterfulgt av komma og et ytterligere mellomrom, og til slutt året.
For eksempel: Sep 20, 2019 eller Mär 05, 2022
For å ekstrahere denne datoen, kan vi bruke følgende regulære uttrykk (REGEX):
La oss bryte uttrykket ned i separate grupper. Disse gruppene er skilt med vanlige parenteser ().
I den første gruppen søker vi etter de 3 bokstavene som representerer måneden: ([A-Z][a-zä]{2})
Deretter søker vi etter et mellomrom ved hjelp av følgende streng: \s
I den andre gruppen søker vi etter tallverdien som representerer dagen: (0[1-9]|[12][0-9]|3[01])
Dagen må være delt inn i tre separate muligheter. Ettersom vi ikke vet hvilken dato som kan vises i dokumentet, kan det være den første dagen (01), eller den siste dagen (31) i måneden, så vi må legge til flere alternativer for datoen.Disse alternativene separeres med symbolet „|“.Som et eksempel: (1|2|3) = 1 eller 2 eller 3.
Inne i firkantede parenteser følger en liste over tillatte tegn. Flere sett med firkantede parenteser betyr flere tegn. Hvis et uttrykk skal inneholde flere tegn, listes de etter hverandre. Databehandlingen går deretter fra venstre mot høyre og sammenligner hver inndatan.
Naturligvis trenger du heller ikke å inkludere alle tall. Samlet sett er hele den klammerede uttrykket representert som ett tegn.
Uttrykket søker etter et mønster som begynner med „0“. Hvis dokumentet ditt normalt inneholder en dato „5. Mars 2022“, uten at tallet „0“ er plassert foran tallet „5“, vil du kunne utelate tallet „0“ i det klammererte uttrykket.
Etter at datomulighetene er definert, må du spesifisere uttrykket for året.
Deretter søker vi etter kommaet og mellomrommet: ,\s
I den siste gruppen søker vi etter året: (20\d{2})
Vi begynner med å søke etter et hvilket som helst år, men vi vet at det vil være ≥ 2000.
Tegnet \d betyr for eksempel et siffer mellom 0 og 9, og teg
Som et annet eksempel vil vi lese ut ordrenummeret fra dokumentet.
Ordrenummeret på dokumentet vårt er formatert som følger:
Det begynner alltid med store bokstaver XYB, etterfulgt av en bindestrek, deretter 8 tall, en annen bindestrek og til slutt 3 tilfeldige store bokstaver.
Eksempler på ordrenumre kan være:
XYB-12316723-LSH
XYB-98456723-JRD
For å ekstrahere dette ordrenummeret kan vi bruke følgende regulære uttrykk:
La oss bryte uttrykket ned.
Først søker vi nøyaktig de første 3 store bokstavene med bindestrek-symbolet: XYB-
Deretter søker vi etter 8 tall etterfulgt av en annen bindestrek: \d{8}-
Tegnet \d, som tidligere nevnt, står for et tall mellom 0 og 9, igjen søker tegnet \d{8} etter åtte-sifret tall.
Og til slutt søker vi etter 3 vilkårlige store bokstaver: [A-Z]{3}
Slik vil PaperOffice kunne kjenne igjen de to første ordrenummene XYB-12316723-LSH og XYB-98456723-JRD fra følgende ordrenumre:
XYB-12316723-LSH
XYB-98456723-JRD
XYB-975432671829
ZYB-12342176-ZHD
Vi har forberedt en lenke til Regex101 med det nevnte regulære uttrykket og 4 eksempler. Du vil se at bare to av de angitte ordrenummrene oppfyller kravene våre.
Artikkelnummeret på vårt dokument er formatert som følger:
Det begynner alltid med to store bokstaver, etterfulgt av en bindestrek, deretter 6 tall.
Eksempler på artikkelnumre kan være:
MS-863398
DS-452829
For å ekstrahere disse artikkelnumrene kan vi bruke følgende regulære uttrykk:
PaperOffice kan digitalisere og integrere dokumentene dine i systemene dine for å automatisere dataekstraksjonen fra fakturaer og andre dokumenter, uten å måtte skrive og vedlikeholde utallige koder.
Kontakt oss for å diskutere dine bruksområder og lære mer om hvordan PaperOffice kan hjelpe deg med å være enda mer konkurransedyktige i den digitale tidsalderen.
Det er enklere å komme i gang enn du tror.
Er du fortsatt bekymret for at du ikke vil klare det? Les våre kundecase-studier om PaperOffice-integrasjon i bedriftslivet ditt og se selv hvor enkelt det er, eller be om en prøveinstallasjon.
ERROR: LID-5759 missing
ERROR: LID-6036 missing
ERROR: LID-6035 missing
ERROR: LID-5763 missing
ERROR: LID-6039 missing
ERROR: LID-6035 missing
ERROR: LID-5756 missing
ERROR: LID-6042 missing
ERROR: LID-5803 missing
ERROR: LID-5793 missing
ERROR: LID-6069 missing
ERROR: LID-6070 missing
ERROR: LID-5787 missing
ERROR: LID-6072 missing
ERROR: LID-6035 missing
ERROR: LID-5789 missing
ERROR: LID-6077 missing
ERROR: LID-6070 missing
ERROR: LID-6074 missing
ERROR: LID-5771 missing
ERROR: LID-6075 missing
ERROR: LID-6035 missing
ERROR: LID-5777 missing
ERROR: LID-5759 missing
ERROR: LID-5763 missing
ERROR: LID-5800 missing
ERROR: LID-5769 missing
ERROR: LID-6082 missing
ERROR: LID-6083 missing