PaperOffice Insider-nyhetsbrevet
PaperOffice Insider-nyhetsbrevet
Vi vill bli vänner

Högsta möjliga rabatt erbjudanden

Exklusiv insider nyheter

Gratis bonusuppgraderingar

Högsta möjliga rabatt erbjudanden

Exklusiv insider nyheter

Gratis bonusuppgraderingar

Vänskap Förtroende Hedersord
Vi kommer aldrig att ge ut din e-postadress till någon annan och varje e-post inkluderar en avregistreringslänk med ett klick.

Utför intelligent dokumenthantering korrekt


Proffstips

Automatiserad datainsamling med reguljära uttryck: Hur man effektivt kan hantera stora datamängder med hjälp av reguljära uttryck.


Nyckeln till automatiserad datainsamling och datatillägg.

I den här artikeln visar vi dig hur du kan använda reguljära uttryck för att dra nytta av automatiserad dokumentbehandling, särskilt för dokument från företag inom alla branscher.

Vi visar exakta exempel på reguljära uttryck och förklarar steg för steg vad de betyder och hur du kan använda dem.

På så sätt kan du öka din verksamhets effektivitet, minska mänskliga fel genom högre noggrannhet, sänka dina aktuella kostnader, bevara dataintegritet och förbättra dataskyddet.

Den här artikeln bygger vidare på den första delen om intelligent dokumenthantering, du kan komma direkt till artikeln här.

Extrahering av specifika dataelement från dokument kan vara en mycket kostsam och tidskrävande uppgift. Ofta skickas skanningar av dokument till stora outsourcingbolag för datainmatning för att få data manuellt inmatad.

Det finns dock olika nackdelar med denna approach, såsom:

  • Dokumentets säkerhet kan bli hotad
  • Det introduceras fördröjning i arbetsflödesprocesser
  • Manuell indexering är en långsam process jämfört med automatiserad extraktion
  • Manuell indexering går inte bra att skala upp för stora projekt
  • Manuell indexering kan eventuellt införa fel i data
  • Om ett dokument ändras måste hela processen göras om

Och många fler.

Trots spridningen av skanning är en stor del av affärstransaktioner fortfarande baserade på pappersdokument. Uppskattningsvis 85% av fakturor utfärdas fortfarande på papper.

Förutom det finns det högar av befintligt papper som måste lagras i enorma lager.

Vad är ett reguljärt uttryck?

Reguljära uttryck, också känt som "Regex", är ett kraftfullt verktyg för att söka och manipulera texter. De gör det möjligt att identifiera och bearbeta komplexa mönster inom text.

Ett reguljärt uttryck består av en kombination av vanliga bokstäver och speciella skildringstecken som har speciella funktioner.

Reguljära uttryck kan också användas för att ersätta eller manipulera text. Till exempel kan ett reguljärt uttryck användas.

De är ett mycket kraftfullt verktyg för textbehandling och automatisering av uppgifter.

Hur kan reguljära uttryck hjälpa företagsautomatisering?

Ökningen av digitala dokument med olika typer, olika benämningar och brist på ett tillräckligt söksystem gör det svårt att söka och extrahera dokumentinformation från specifika innehåll, särskilt när det gäller oklassificerade dokument, vilket gör sökningen oprecis och tidskrävande.

Reguljära uttryck (Regex) erbjuder en snabb och kraftfull metod för att söka, extrahera och ersätta specifik data i dokument. Reguljära uttryck är i grunden en speciell textsträng för att beskriva ett sökmönster.

På så sätt söks och extraheras dokumentinnehållet efter en fördefinierad textsträng.Reguljära uttryck är ett sätt att definiera mönster i information genom att använda speciella symboler.

Regex-metoden fungerar bäst för dokument där positionerna för de extraherade värdena kan variera och enkla dokumentmallar inte fungerar.

En lista över enkla uttryck finns i vår ComDesk.

PaperOffice Regex Beispielsammlung
Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

Hur bygger jag reguljära uttryck?

Reguljära uttryck kan konstrueras på olika sätt beroende på vilken typ av mönster som söks.

Använda skildrande tecken som ., *, +, ?, ^, $, [] och [a-z] för att representera särskilda typer av tecken eller mönster.

Använda delar som är valfria: Använd frågetecknet (?) eller asterisken (*) för att göra delar av mönstret valfria.

Använda grupper: Använd parenteser för att gruppera delar av mönstret och behandla dem som en enhet.

Det är viktigt att notera att reglerna för reguljära uttryck kan vara olika beroende på programmeringsspråket. Det är därför viktigt att läsa dokumentationen för de verktyg som används. Regex-uttrycken som skrivs för PaperOffice måste vara kompatibla med ECMAScript och PCRE2.

Tips

Det finns också en video på YouTube om "Automatiserad DOKUMENTFÖRVARING / REGEX & Variabler / Automatisera fakturahantering" som förklarar denna process på ett enkelt och förståeligt sätt:

Innehåll

Hur extraherar jag information från mitt dokument med REGEX?

Praktiska exempel

I den här artikeln visar vi hur du med hjälp av flera regex-uttryck i PaperOffice kan extrahera alla data från dokumentet och automatiskt lägga till dem som nyckelord för dokumentet.

Här nedan har vi skapat ett exempeldokument som har ett specifikt datum. I detta dokument är det en faktura. Datum mönstret på vårt dokument är formaterat på följande sätt:

PaperOffice Rechnung mit Regex zu auslesen
Informationen automatisiert aus Rechnungen extrahieren

Månaden består av bokstäver, men den första bokstaven är alltid stor, följt av ett mellanslag, sedan följer dagen efter ett komma, ännu ett mellanslag och sedan året.

Till exempel: Sep 20, 2019 eller Mär 05, 2022


För att extrahera detta datum kan vi använda följande regex-uttryck:

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Låt oss bryta ner uttrycket i enskilda grupper. Dessa grupper separeras med enkla parenteser ().

I den första gruppen letar vi efter de 3 bokstäverna som representerar månaden: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrahera månaden

  • [A-Z] Denna teckensträng betyder att vi letar efter en stor bokstav från A till Z. Till exempel bokstaven "S" från Sept. Observera att skiftläge för bokstäver både behöver och har betydelse.
  • [a-zä]{2} Denna teckensträng betyder att vi letar efter två små bokstäver från a till z och även "ä" (för månadens namn på tyska, "März"). Det skulle vara "ep" från "Sep" eller "är" från "Mär" på tyska.

Sedan letar vi efter ett mellanslag med följande teckensträng: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrahera dagen

I den andra gruppen letar vi efter dagen som anges i siffror: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Dagen kräver tre separata instruktioner för att kunna definieras.
Eftersom vi inte vet vilket dagsdatum som kan förekomma i dokumentet, kan det vara antingen den första dagen (01) eller den sista dagen (31) i månaden, så vi måste ange olika alternativ.
Dessa alternativ separeras med tecknet "|".
Exempel: (1|2|3) = 1 eller 2 eller 3.

Inom hakparenteserna följer en lista över tecken som är tillåtna. Flera hakparenteser motsvarar flera tecken.Om ett uttryck ska beskriva flera tecken listas de i följd. Inmatningen jämförs sedan från vänster till höger med ditt uttryck.

Självklart behöver inte alla siffror alltid anges. Sammantaget representerar dock hela grupperingen bara ett tecken.

  • 0[1-9] Denna teckensträng betyder att det kan vara siffran 0, följt av ett tal från 1 till 9. Så vi får vilket som helst tal från 01-09.
  • Teckensträngen letar efter ett siffermönster som börjar med en nolla. Om ditt dokument normalt innehåller ett datumsdatum "5 mars 2022", alltså utan att siffran "0" före numret "5", kommer "0" att utelämnas i teckensträngen.

  • [12][0-9] Denna teckensträng betyder att det kan vara siffran 1 eller 2, följt av vilket tal som helst från 0 till 9. Resultatet kan vara vilket tal som helst mellan 10 och 29.
  • 3[01] Denna teckensträng betyder att det kan vara siffran 3, följt av en 0 eller 1. Resultatet kan vara 30 eller 31.

Efter att alternativen för dagen har definierats, bör uttrycket för året bestämmas.

Nu letar vi efter kommatecken och mellanslaget: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrahera året

I den sista gruppen letar vi efter året: (20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Vi letar efter ett giltigt år, men vet att det kommer att vara ≥ 2000.

  • 20 Denna teckensträng betyder att vi letar efter vilket som helst år som börjar med exakt 20.
  • \d{2} Denna teckensträng betyder att vi letar efter ett möjligt tvåsiffrigt nummer, dvs från "00" till "99".

Tecknet \d står till exempel för ett siffer mellan 0 och 9, igen söker tecknet \d{2} efter ett tvåsiffrigt

Läs ut ordernumret med REGEX

Vi vill använda ordernumret som ett annat exempel på att läsa in från dokumentet.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Auftragsnummern werden aus dem Dokument extrahiert

Ordernumret på vårt dokument är formaterat på följande sätt:

Det börjar alltid med de stora bokstäverna XYB, följt av en bindestreck, följt av 8 siffror, ytterligare ett bindestreck och till sist 3 slumpmässiga stora bokstäver.

Exempel på ordernummer skulle vara:

XYB-12316723-LSH

XYB-98456723-JRD

För att extrahera detta ordernummer kan vi använda följande reguljära uttryck:

XYB-\d{8}-[A-Z]{3}

Låt oss undersöka uttrycket i detalj.

Först letar vi efter exakt de första 3 stora bokstäverna med bindestreckssymbolen: XYB-

XYB-\d{8}-[A-Z]{3}

Sedan letar vi efter 8 siffror följt av ytterligare ett bindestreck: \d{8}-

XYB-\d{8}-[A-Z]{3}

Tecknet \d, som tidigare förklarats, står för en siffra mellan 0 och 9, medan tecknet \d{8} letar efter en åttasiffrig siffra.

Och till sist letar vi efter 3 slumpmässiga stora bokstäver: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Så skulle PaperOffice känna igen de första två ordernumren, XYB-12316723-LSH och XYB-98456723-JRD, från följande ordernummer:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

Vi har förberett en länk till Regex101 för detta exempel, där det förekommande reguljära uttrycket visas med 4 exempel. Du kommer att se att bara två av de angivna ordernumren uppfyller våra krav.

Läs ut artikelnumret med REGEX

Artikelnumret på vårt dokument är formaterat på följande sätt:

Det börjar alltid med två stora bokstäver, följt av ett bindestreck, och sedan följer 6 siffror.

PaperOffice Rechnung mit Regex zu auslesen
Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

Exempel på artikelnummer skulle vara:

MS-863398

DS-452829

För att extrahera dessa artikelnummer kan vi använda följande reguljära uttryck:

[A-Z]{2}-\d{6}

PaperOffice kan digitalisera dina dokument och integrera dem i dina system för att automatisera dataextrahering från fakturor och andra dokument utan att du behöver skriva och underhålla otaliga koder.

Kontakta oss för att diskutera dina användningsfall och lära dig mer om hur PaperOffice kan hjälpa dig att bli ännu konkurrenskraftigare i den digitala tidsåldern.

Det är enklare att komma igång än du tror.

Är du fortfarande orolig för att du inte ska klara av det? Läs våra kundfall om PaperOffice-integration i ditt företagsliv och övertyga dig själv om hur enkelt det är, eller begär en testinstallation på ett enkelt sätt.

FAQs

Slutligen besvarar vi några fler vanliga frågor om ämnet. "Använda reguljära uttryck REGEX för automatiserad datadedelning och extraktion (Del 2)":

För vem är ett papperslöst kontor lämpligt?

Det snabba och enkla svaret på frågan är: för alla företag. Alla branscher och storlekar av företag kan dra nytta av ett papperslöst kontor, från små och medelstora företag till start-ups och stora företag. Särskilt värdefullt är övergången för små och medelstora företag: Genom att minska arbetsinsatser och kostnader frigörs nödvändiga budgetar för ytterligare tillväxt.

Kan jag använda en molnbaserad DMS-leverantör för mitt papperslösa kontor på företaget?

Nej. En ytterligare faktor som har varit i allas mun sedan den nya dataskyddsförordningen (GDPR) trädde i kraft 2018 är dataskyddet. DMS-lösningar och DMS-programvara används för att bearbeta, hantera och lagra dokument som ofta innehåller känsliga personuppgifter. Om man bryter mot GDPR kan höga böter utdömas.

Slutsats

  • Fördelarna rättfärdigar ansträngningen och kostnaden

    Att arbeta digitalt och ta gamla dokument in i den nya eran kommer att vara den bästa nyckelinvesteringen för att spara otroligt mycket tid, pengar och nerver i framtiden.

  • Du behöver någon som kan detta

    Du behöver inte en egen IT-specialist för att dra nytta av digitaliseringens fördelar. Det du behöver är rätt partner vid din sida som kan implementera exakt det du behöver genom sin erfarenhet. Undvik alarmister och välj tester istället för snygga PowerPoint-presentationer som inte verkligen har testats.

  • Hårdvara finns oftast redan

    Erfarenhetsmässigt har nästan alla företag redan en stor kopiator som inte utnyttjar sin potential fullt ut. Den här apparaten älskar masscanning, är tolerant mot gem och kan vara grunden för en digital start utan behov av en scannerinvestering.

  • Billigare än förväntat med rätt DMS

    Undvik kostnadsfällor med DMS/ECM-system där du beroende av tillverkaren. Gör inga kompromisser när det gäller egna administrativa möjligheter, till exempel självinlärning av dokument och inställningar. Om du behöver hjälp är tillverkaren gladeligen till hands, men förbli självständig och oberoende.

  • Att automatisera digitalt är framtiden

    Processer kommer i framtiden att vara helt identiska men helt automatiserade. Får du in en faktura? Arbetsflödet startar och allting följer sin fördefinierade väg. Behöver du leta igenom 1000 pärmar? Inget problem, för du har din egen Google!

PaperOffice löser varje problem: Garanterat.

Fallstudie

Digitalisering inom dentalteknikindustrin - framgångsrik dokumenthantering för dentalindustrin

"Att få kronologiska resultat supersnabbt för årsbokslut och lager för att bestämma det billigaste inköpspriset för varje enskild artikel. Det som tidigare tog dagar kan nu göras på några timmar!

Lars R. Ludewig
ägare och verkställande direktör för ViaCreative Zahntechnik GmbH