Använda reguljära uttryck REGEX för automatiserad datadedelning och extraktion (Del 2)

I den här artikeln visar vi dig hur du kan använda reguljära uttryck för att dra nytta av automatiserad dokumentbehandling, särskilt för dokument från företag inom alla branscher.

Vi visar exakta exempel på reguljära uttryck och förklarar steg för steg vad de betyder och hur du kan använda dem.

På så sätt kan du öka din verksamhets effektivitet, minska mänskliga fel genom högre noggrannhet, sänka dina aktuella kostnader, bevara dataintegritet och förbättra dataskyddet.

Den här artikeln bygger vidare på den första delen om intelligent dokumenthantering, du kan komma direkt till artikeln här.

Extrahering av specifika dataelement från dokument kan vara en mycket kostsam och tidskrävande uppgift. Ofta skickas skanningar av dokument till stora outsourcingbolag för datainmatning för att få data manuellt inmatad.

Det finns dock olika nackdelar med denna approach, såsom:

Dokumentets säkerhet kan bli hotad
Det introduceras fördröjning i arbetsflödesprocesser
Manuell indexering är en långsam process jämfört med automatiserad extraktion
Manuell indexering går inte bra att skala upp för stora projekt
Manuell indexering kan eventuellt införa fel i data
Om ett dokument ändras måste hela processen göras om

Och många fler.

Trots spridningen av skanning är en stor del av affärstransaktioner fortfarande baserade på pappersdokument. Uppskattningsvis 85% av fakturor utfärdas fortfarande på papper.

Förutom det finns det högar av befintligt papper som måste lagras i enorma lager.

Vad är ett reguljärt uttryck?

Reguljära uttryck, också känt som "Regex", är ett kraftfullt verktyg för att söka och manipulera texter. De gör det möjligt att identifiera och bearbeta komplexa mönster inom text.

Ett reguljärt uttryck består av en kombination av vanliga bokstäver och speciella skildringstecken som har speciella funktioner.

Reguljära uttryck kan också användas för att ersätta eller manipulera text. Till exempel kan ett reguljärt uttryck användas.

De är ett mycket kraftfullt verktyg för textbehandling och automatisering av uppgifter.

Hur kan reguljära uttryck hjälpa företagsautomatisering?

Ökningen av digitala dokument med olika typer, olika benämningar och brist på ett tillräckligt söksystem gör det svårt att söka och extrahera dokumentinformation från specifika innehåll, särskilt när det gäller oklassificerade dokument, vilket gör sökningen oprecis och tidskrävande.

Reguljära uttryck (Regex) erbjuder en snabb och kraftfull metod för att söka, extrahera och ersätta specifik data i dokument. Reguljära uttryck är i grunden en speciell textsträng för att beskriva ett sökmönster.

På så sätt söks och extraheras dokumentinnehållet efter en fördefinierad textsträng.Reguljära uttryck är ett sätt att definiera mönster i information genom att använda speciella symboler.

Regex-metoden fungerar bäst för dokument där positionerna för de extraherade värdena kan variera och enkla dokumentmallar inte fungerar.

En lista över enkla uttryck finns i vår ComDesk.

Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

Hur bygger jag reguljära uttryck?

Reguljära uttryck kan konstrueras på olika sätt beroende på vilken typ av mönster som söks.

Använda skildrande tecken som ., *, +, ?, ^, $, [] och [a-z] för att representera särskilda typer av tecken eller mönster.

Använda delar som är valfria: Använd frågetecknet (?) eller asterisken (*) för att göra delar av mönstret valfria.

Använda grupper: Använd parenteser för att gruppera delar av mönstret och behandla dem som en enhet.

Det är viktigt att notera att reglerna för reguljära uttryck kan vara olika beroende på programmeringsspråket. Det är därför viktigt att läsa dokumentationen för de verktyg som används. Regex-uttrycken som skrivs för PaperOffice måste vara kompatibla med ECMAScript och PCRE2.

Tips

Det finns också en video på YouTube om "Automatiserad DOKUMENTFÖRVARING / REGEX & Variabler / Automatisera fakturahantering" som förklarar denna process på ett enkelt och förståeligt sätt:

Hur extraherar jag information från mitt dokument med REGEX?

Praktiska exempel

I den här artikeln visar vi hur du med hjälp av flera regex-uttryck i PaperOffice kan extrahera alla data från dokumentet och automatiskt lägga till dem som nyckelord för dokumentet.

Här nedan har vi skapat ett exempeldokument som har ett specifikt datum. I detta dokument är det en faktura. Datum mönstret på vårt dokument är formaterat på följande sätt:

PaperOffice Rechnung mit Regex zu auslesen

Informationen automatisiert aus Rechnungen extrahieren

Månaden består av bokstäver, men den första bokstaven är alltid stor, följt av ett mellanslag, sedan följer dagen efter ett komma, ännu ett mellanslag och sedan året.

Till exempel: Sep 20, 2019 eller Mär 05, 2022

För att extrahera detta datum kan vi använda följande regex-uttryck:

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Låt oss bryta ner uttrycket i enskilda grupper. Dessa grupper separeras med enkla parenteser ().

I den första gruppen letar vi efter de 3 bokstäverna som representerar månaden: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrahera månaden

[A-Z] Denna teckensträng betyder att vi letar efter en stor bokstav från A till Z. Till exempel bokstaven "S" från Sept. Observera att skiftläge för bokstäver både behöver och har betydelse.
[a-zä]{2} Denna teckensträng betyder att vi letar efter två små bokstäver från a till z och även "ä" (för månadens namn på tyska, "März"). Det skulle vara "ep" från "Sep" eller "är" från "Mär" på tyska.

Sedan letar vi efter ett mellanslag med följande teckensträng: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrahera dagen

I den andra gruppen letar vi efter dagen som anges i siffror: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Dagen kräver tre separata instruktioner för att kunna definieras.
Eftersom vi inte vet vilket dagsdatum som kan förekomma i dokumentet, kan det vara antingen den första dagen (01) eller den sista dagen (31) i månaden, så vi måste ange olika alternativ.
Dessa alternativ separeras med tecknet "|".
Exempel: (1|2|3) = 1 eller 2 eller 3.

Inom hakparenteserna följer en lista över tecken som är tillåtna. Flera hakparenteser motsvarar flera tecken.Om ett uttryck ska beskriva flera tecken listas de i följd. Inmatningen jämförs sedan från vänster till höger med ditt uttryck.

Självklart behöver inte alla siffror alltid anges. Sammantaget representerar dock hela grupperingen bara ett tecken.

0[1-9] Denna teckensträng betyder att det kan vara siffran 0, följt av ett tal från 1 till 9. Så vi får vilket som helst tal från 01-09.

Teckensträngen letar efter ett siffermönster som börjar med en nolla. Om ditt dokument normalt innehåller ett datumsdatum "5 mars 2022", alltså utan att siffran "0" före numret "5", kommer "0" att utelämnas i teckensträngen.

[12][0-9] Denna teckensträng betyder att det kan vara siffran 1 eller 2, följt av vilket tal som helst från 0 till 9. Resultatet kan vara vilket tal som helst mellan 10 och 29.

3[01] Denna teckensträng betyder att det kan vara siffran 3, följt av en 0 eller 1. Resultatet kan vara 30 eller 31.

Efter att alternativen för dagen har definierats, bör uttrycket för året bestämmas.

Nu letar vi efter kommatecken och mellanslaget: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrahera året

I den sista gruppen letar vi efter året: (20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Vi letar efter ett giltigt år, men vet att det kommer att vara ≥ 2000.

20 Denna teckensträng betyder att vi letar efter vilket som helst år som börjar med exakt 20.

\d{2} Denna teckensträng betyder att vi letar efter ett möjligt tvåsiffrigt nummer, dvs från "00" till "99".

Tecknet \d står till exempel för ett siffer mellan 0 och 9, igen söker tecknet \d{2} efter ett tvåsiffrigt

Läs ut ordernumret med REGEX

Vi vill använda ordernumret som ett annat exempel på att läsa in från dokumentet.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt

Auftragsnummern werden aus dem Dokument extrahiert

Ordernumret på vårt dokument är formaterat på följande sätt:

Det börjar alltid med de stora bokstäverna XYB, följt av en bindestreck, följt av 8 siffror, ytterligare ett bindestreck och till sist 3 slumpmässiga stora bokstäver.

Exempel på ordernummer skulle vara:

XYB-12316723-LSH

XYB-98456723-JRD

För att extrahera detta ordernummer kan vi använda följande reguljära uttryck:

XYB-\d{8}-[A-Z]{3}

Låt oss undersöka uttrycket i detalj.

Först letar vi efter exakt de första 3 stora bokstäverna med bindestreckssymbolen: XYB-

XYB-\d{8}-[A-Z]{3}

Sedan letar vi efter 8 siffror följt av ytterligare ett bindestreck: \d{8}-

XYB-\d{8}-[A-Z]{3}

Tecknet \d, som tidigare förklarats, står för en siffra mellan 0 och 9, medan tecknet \d{8} letar efter en åttasiffrig siffra.

Och till sist letar vi efter 3 slumpmässiga stora bokstäver: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Så skulle PaperOffice känna igen de första två ordernumren, XYB-12316723-LSH och XYB-98456723-JRD, från följande ordernummer:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

Vi har förberett en länk till Regex101 för detta exempel, där det förekommande reguljära uttrycket visas med 4 exempel. Du kommer att se att bara två av de angivna ordernumren uppfyller våra krav.

Läs ut artikelnumret med REGEX

Artikelnumret på vårt dokument är formaterat på följande sätt:

Det börjar alltid med två stora bokstäver, följt av ett bindestreck, och sedan följer 6 siffror.

Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

Exempel på artikelnummer skulle vara:

MS-863398

DS-452829

För att extrahera dessa artikelnummer kan vi använda följande reguljära uttryck:

[A-Z]{2}-\d{6}

PaperOffice kan digitalisera dina dokument och integrera dem i dina system för att automatisera dataextrahering från fakturor och andra dokument utan att du behöver skriva och underhålla otaliga koder.

Kontakta oss för att diskutera dina användningsfall och lära dig mer om hur PaperOffice kan hjälpa dig att bli ännu konkurrenskraftigare i den digitala tidsåldern.

Det är enklare att komma igång än du tror.

Är du fortfarande orolig för att du inte ska klara av det? Läs våra kundfall om PaperOffice-integration i ditt företagsliv och övertyga dig själv om hur enkelt det är, eller begär en testinstallation på ett enkelt sätt.

Använda reguljära uttryck REGEX för automatiserad datadedelning och extraktion (Del 2)

Vad är ett reguljärt uttryck?

Hur kan reguljära uttryck hjälpa företagsautomatisering?

Hur bygger jag reguljära uttryck?

Hur extraherar jag information från mitt dokument med REGEX?

Praktiska exempel

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrahera månaden

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrahera dagen

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrahera året

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Läs ut ordernumret med REGEX

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Läs ut artikelnumret med REGEX

[A-Z]{2}-\d{6}

ERROR: LID-5754 missing

ERROR: LID-5761 missing

ERROR: LID-5758 missing

ERROR: LID-5797 missing

ERROR: LID-5791 missing

ERROR: LID-5785 missing

ERROR: LID-5790 missing

ERROR: LID-5780 missing

ERROR: LID-5758 missing

ERROR: LID-5775 missing

ERROR: LID-6029 missing

ERROR: LID-5764 missing

ERROR: LID-5801 missing

ERROR: LID-5768 missing