Använda reguljära uttryck REGEX för automatiserad datadedelning och extraktion (Del 2)
Högsta möjliga rabatt erbjudanden
Exklusiv insider nyheter
Gratis bonusuppgraderingar
Högsta möjliga rabatt erbjudanden
Exklusiv insider nyheter
Gratis bonusuppgraderingar
Vänskap Förtroende Hedersord
Vi kommer aldrig att ge ut din e-postadress till någon annan och varje e-post inkluderar en avregistreringslänk med ett klick.
I den här artikeln visar vi dig hur du kan använda reguljära uttryck för att dra nytta av automatiserad dokumentbehandling, särskilt för dokument från företag inom alla branscher.
Vi visar exakta exempel på reguljära uttryck och förklarar steg för steg vad de betyder och hur du kan använda dem.
På så sätt kan du öka din verksamhets effektivitet, minska mänskliga fel genom högre noggrannhet, sänka dina aktuella kostnader, bevara dataintegritet och förbättra dataskyddet.
Den här artikeln bygger vidare på den första delen om intelligent dokumenthantering, du kan komma direkt till artikeln här.
Extrahering av specifika dataelement från dokument kan vara en mycket kostsam och tidskrävande uppgift. Ofta skickas skanningar av dokument till stora outsourcingbolag för datainmatning för att få data manuellt inmatad.
Det finns dock olika nackdelar med denna approach, såsom:
Och många fler.
Trots spridningen av skanning är en stor del av affärstransaktioner fortfarande baserade på pappersdokument. Uppskattningsvis 85% av fakturor utfärdas fortfarande på papper.
Förutom det finns det högar av befintligt papper som måste lagras i enorma lager.
Reguljära uttryck, också känt som "Regex", är ett kraftfullt verktyg för att söka och manipulera texter. De gör det möjligt att identifiera och bearbeta komplexa mönster inom text.
Ett reguljärt uttryck består av en kombination av vanliga bokstäver och speciella skildringstecken som har speciella funktioner.
Reguljära uttryck kan också användas för att ersätta eller manipulera text. Till exempel kan ett reguljärt uttryck användas.
De är ett mycket kraftfullt verktyg för textbehandling och automatisering av uppgifter.
Ökningen av digitala dokument med olika typer, olika benämningar och brist på ett tillräckligt söksystem gör det svårt att söka och extrahera dokumentinformation från specifika innehåll, särskilt när det gäller oklassificerade dokument, vilket gör sökningen oprecis och tidskrävande.
På så sätt söks och extraheras dokumentinnehållet efter en fördefinierad textsträng.Reguljära uttryck är ett sätt att definiera mönster i information genom att använda speciella symboler.
Regex-metoden fungerar bäst för dokument där positionerna för de extraherade värdena kan variera och enkla dokumentmallar inte fungerar.
En lista över enkla uttryck finns i vår ComDesk.
Reguljära uttryck kan konstrueras på olika sätt beroende på vilken typ av mönster som söks.
Använda skildrande tecken som ., *, +, ?, ^, $, [] och [a-z] för att representera särskilda typer av tecken eller mönster.
Använda delar som är valfria: Använd frågetecknet (?) eller asterisken (*) för att göra delar av mönstret valfria.
Använda grupper: Använd parenteser för att gruppera delar av mönstret och behandla dem som en enhet.
Det är viktigt att notera att reglerna för reguljära uttryck kan vara olika beroende på programmeringsspråket. Det är därför viktigt att läsa dokumentationen för de verktyg som används. Regex-uttrycken som skrivs för PaperOffice måste vara kompatibla med ECMAScript och PCRE2.
Tips
Det finns också en video på YouTube om "Automatiserad DOKUMENTFÖRVARING / REGEX & Variabler / Automatisera fakturahantering" som förklarar denna process på ett enkelt och förståeligt sätt:
I den här artikeln visar vi hur du med hjälp av flera regex-uttryck i PaperOffice kan extrahera alla data från dokumentet och automatiskt lägga till dem som nyckelord för dokumentet.
Här nedan har vi skapat ett exempeldokument som har ett specifikt datum. I detta dokument är det en faktura. Datum mönstret på vårt dokument är formaterat på följande sätt:
Månaden består av bokstäver, men den första bokstaven är alltid stor, följt av ett mellanslag, sedan följer dagen efter ett komma, ännu ett mellanslag och sedan året.
Till exempel: Sep 20, 2019 eller Mär 05, 2022
För att extrahera detta datum kan vi använda följande regex-uttryck:
Låt oss bryta ner uttrycket i enskilda grupper. Dessa grupper separeras med enkla parenteser ().
I den första gruppen letar vi efter de 3 bokstäverna som representerar månaden: ([A-Z][a-zä]{2})
Sedan letar vi efter ett mellanslag med följande teckensträng: \s
I den andra gruppen letar vi efter dagen som anges i siffror: (0[1-9]|[12][0-9]|3[01])
Dagen kräver tre separata instruktioner för att kunna definieras.
Eftersom vi inte vet vilket dagsdatum som kan förekomma i dokumentet, kan det vara antingen den första dagen (01) eller den sista dagen (31) i månaden, så vi måste ange olika alternativ.
Dessa alternativ separeras med tecknet "|".
Exempel: (1|2|3) = 1 eller 2 eller 3.
Inom hakparenteserna följer en lista över tecken som är tillåtna. Flera hakparenteser motsvarar flera tecken.Om ett uttryck ska beskriva flera tecken listas de i följd. Inmatningen jämförs sedan från vänster till höger med ditt uttryck.
Självklart behöver inte alla siffror alltid anges. Sammantaget representerar dock hela grupperingen bara ett tecken.
Teckensträngen letar efter ett siffermönster som börjar med en nolla. Om ditt dokument normalt innehåller ett datumsdatum "5 mars 2022", alltså utan att siffran "0" före numret "5", kommer "0" att utelämnas i teckensträngen.
Efter att alternativen för dagen har definierats, bör uttrycket för året bestämmas.
Nu letar vi efter kommatecken och mellanslaget: ,\s
I den sista gruppen letar vi efter året: (20\d{2})
Vi letar efter ett giltigt år, men vet att det kommer att vara ≥ 2000.
Tecknet \d står till exempel för ett siffer mellan 0 och 9, igen söker tecknet \d{2} efter ett tvåsiffrigt
Vi vill använda ordernumret som ett annat exempel på att läsa in från dokumentet.
Ordernumret på vårt dokument är formaterat på följande sätt:
Det börjar alltid med de stora bokstäverna XYB, följt av en bindestreck, följt av 8 siffror, ytterligare ett bindestreck och till sist 3 slumpmässiga stora bokstäver.
Exempel på ordernummer skulle vara:
XYB-12316723-LSH
XYB-98456723-JRD
För att extrahera detta ordernummer kan vi använda följande reguljära uttryck:
Låt oss undersöka uttrycket i detalj.
Först letar vi efter exakt de första 3 stora bokstäverna med bindestreckssymbolen: XYB-
Sedan letar vi efter 8 siffror följt av ytterligare ett bindestreck: \d{8}-
Tecknet \d, som tidigare förklarats, står för en siffra mellan 0 och 9, medan tecknet \d{8} letar efter en åttasiffrig siffra.
Och till sist letar vi efter 3 slumpmässiga stora bokstäver: [A-Z]{3}
Så skulle PaperOffice känna igen de första två ordernumren, XYB-12316723-LSH och XYB-98456723-JRD, från följande ordernummer:
XYB-12316723-LSH
XYB-98456723-JRD
XYB-975432671829
ZYB-12342176-ZHD
Vi har förberett en länk till Regex101 för detta exempel, där det förekommande reguljära uttrycket visas med 4 exempel. Du kommer att se att bara två av de angivna ordernumren uppfyller våra krav.
Artikelnumret på vårt dokument är formaterat på följande sätt:
Det börjar alltid med två stora bokstäver, följt av ett bindestreck, och sedan följer 6 siffror.
Exempel på artikelnummer skulle vara:
MS-863398
DS-452829
För att extrahera dessa artikelnummer kan vi använda följande reguljära uttryck:
PaperOffice kan digitalisera dina dokument och integrera dem i dina system för att automatisera dataextrahering från fakturor och andra dokument utan att du behöver skriva och underhålla otaliga koder.
Kontakta oss för att diskutera dina användningsfall och lära dig mer om hur PaperOffice kan hjälpa dig att bli ännu konkurrenskraftigare i den digitala tidsåldern.
Det är enklare att komma igång än du tror.
Är du fortfarande orolig för att du inte ska klara av det? Läs våra kundfall om PaperOffice-integration i ditt företagsliv och övertyga dig själv om hur enkelt det är, eller begär en testinstallation på ett enkelt sätt.
ERROR: LID-5759 missing
ERROR: LID-6036 missing
ERROR: LID-6035 missing
ERROR: LID-5763 missing
ERROR: LID-6039 missing
ERROR: LID-6035 missing
ERROR: LID-5756 missing
ERROR: LID-6042 missing
ERROR: LID-5803 missing
ERROR: LID-5793 missing
ERROR: LID-6069 missing
ERROR: LID-6070 missing
ERROR: LID-5787 missing
ERROR: LID-6072 missing
ERROR: LID-6035 missing
ERROR: LID-5789 missing
ERROR: LID-6077 missing
ERROR: LID-6070 missing
ERROR: LID-6074 missing
ERROR: LID-5771 missing
ERROR: LID-6075 missing
ERROR: LID-6035 missing
ERROR: LID-5777 missing
ERROR: LID-5759 missing
ERROR: LID-5763 missing
ERROR: LID-5800 missing
ERROR: LID-5769 missing
ERROR: LID-6082 missing
ERROR: LID-6083 missing