De PaperOffice Insider Nieuwsbrief
De PaperOffice Insider Nieuwsbrief
We willen vrienden worden.

Hoogst mogelijke kortingsaanbiedingen

Exclusieve Insider nieuws

Gratis bonus upgrades

Hoogst mogelijke kortingsaanbiedingen

Exclusieve Insider nieuws

Gratis bonus upgrades

Vriendschap-Vertrouwen-Eerewoord
We zullen uw e-mailadres nooit delen met anderen en elke e-mail bevat een link om u af te melden met slechts één klik.

Voer intelligente documentverwerking nauwkeurig uit


Door geautomatiseerde verwerking en uitlezing van gegevens met kunstmatige intelligentie (AI) kan een documentbeheersysteem zoals PaperOffice DMS u helpen uw bedrijfskosten tot 92% te verlagen en de operationele efficiëntie te verhogen.

Professionele tip

Geautomatiseerde gegevensverzameling met reguliere expressies: hoe u grote hoeveelheden gegevens efficiënt kunt verwerken met behulp van reguliere expressies.


De sleutel tot geautomatiseerde gegevensverzameling en gegevensextractie.

In het huidige artikel laten we u zien hoe u reguliere expressies kunt gebruiken om te profiteren van de voordelen van geautomatiseerde documentverwerking. Dit geldt met name voor documenten van bedrijven in welke branche dan ook.

We laten u exacte voorbeelden zien van reguliere expressies en leggen stap voor stap uit wat ze betekenen en hoe u ze kunt gebruiken.

Op deze manier kunt u uw operationele efficiëntie verhogen, menselijke fouten verminderen door hogere nauwkeurigheid, uw huidige kosten verlagen, de gegevensintegriteit behouden en de gegevensbeveiliging verbeteren.

Het huidige artikel breidt het eerste deel over intelligente documentverwerking uit, hier gaat u rechtstreeks naar het artikel.

Het extraheren van specifieke gegevenselementen uit documenten kan een extreem dure en tijdrovende taak zijn. Vaak worden scans van documenten naar grote outsourcingbedrijven voor gegevensinvoer gestuurd, waar de gegevens met de hand worden ingevoerd.

Er kleven echter verschillende nadelen aan deze aanpak, namelijk:

  • Dit kan de documentbeveiliging in gevaar brengen
  • Er wordt een vertraging geïntroduceerd in workflowprocessen
  • Vergeleken met geautomatiseerde extractie is handmatige indexering een langzaam proces
  • Handmatige indexering is niet goed schaalbaar bij grote projecten
  • Handmatige indexering kan fouten in de gegevens introduceren
  • Als een document wordt gewijzigd, begint het hele proces opnieuw

En nog veel meer.

Ondanks de toename van het aantal scans is een groot deel van de zakelijke transacties nog steeds gebaseerd op papieren documenten. Naar schatting wordt nog steeds 85% van de facturen op papier uitgegeven.

Daarnaast zijn er bergen bestaand papier die in enorme pakhuizen moeten worden opgeslagen!

Wat is een reguliere expressie?

Reguliere expressies, ook bekend als "REGEX", zijn een krachtig hulpmiddel voor het zoeken en manipuleren van tekst. Ze maken het mogelijk complexe patronen in tekst te herkennen en te bewerken.

Een reguliere expressie bestaat uit een combinatie van normale letters en speciale metatekens die speciale functies hebben.

Regelmatige expressies kunnen ook worden gebruikt om tekst te vervangen of te manipuleren. Er kan bijvoorbeeld een reguliere expressie worden gebruikt.

Ze zijn een zeer krachtig hulpmiddel voor tekstverwerking en taakautomatisering.

Hoe kunnen reguliere expressies een bedrijf helpen automatiseren?

De toename van digitale documenten van verschillende typen, verschillende naamgevingsregels en het ontbreken van een voldoende zoeksysteem compliceert het zoekproces en het proces van het extraheren van documentinformatie uit bepaalde inhoud, vooral als het gaat om niet-geclassificeerde documenten. Het zoeken wordt onnauwkeurig en duurt een lange tijd.

Reguliere expressies (regex) bieden een snelle en krachtige manier om specifieke gegevens in documenten te vinden, extraheren en vervangen. Reguliere expressies zijn in wezen een speciale tekstreeks die wordt gebruikt om een zoekpatroon te beschrijven.

Zo wordt de documentinhoud gezocht en uitgelezen voor een opgegeven tekenreeks. Reguliere expressies zijn een manier om patronen in informatie te definiëren met behulp van speciale symbolen.

De Regex-methode is het meest geschikt voor documenten waarin de posities van de te lezen waarden kunnen variëren en eenvoudige documentsjablonen niet kunnen werken.

U kunt een lijst met eenvoudige expressies vinden in onze ComDesk.

PaperOffice Regex example collection
Extensive expressions can be used from the PaperOffice Regex example collection

Hoe kan ik reguliere expressies bouwen?

Reguliere expressies kunnen op verschillende manieren worden samengesteld, afhankelijk van het type patroon waarnaar wordt gezocht.

Gebruik metatekens zoals ., *, +, ?, ^, $, [] en [a-z] om specifieke typen tekens of patronen weer te geven.

Gebruik optionele delen: gebruik het vraagteken (?) of een sterretje (*) om delen van het patroon optioneel te maken.

Gebruik groepen: gebruik haakjes om delen van het patroon te groeperen en behandel ze als een eenheid.

Het is belangrijk op te merken dat regels voor reguliere expressies per programmeertaal kunnen verschillen. Het is dus belangrijk om de documentatie van de gebruikte tools te lezen. De RegEx die voor PaperOffice is geschreven, moet compatibel zijn met ECMAScript en PCRE2.

Tip

Er staat ook een video op YouTube over het onderwerp "Automated Document STORAGE Part 3 / REGEX & Variables / Factuurverwerking Documentbeheer ", waarin dit proces eenvoudig en duidelijk wordt uitgelegd:

Hoe extraheer ik informatie uit mijn document met REGEX?

Praktische voorbeelden

In het huidige artikel laten we zien hoe u gegevens uit het document kunt extraheren dankzij reguliere expressies met meerdere elementen in PaperOffice en deze automatisch kunt opslaan als trefwoord voor het document.

We hebben hieronder een voorbeelddocument gemaakt met een specifieke datum. Dit document is een factuur. Het datumpatroon in ons document heeft de volgende notatie:

Read out PaperOffice invoice with regex
Extract information automatically from invoices

Maand, samengesteld uit letters, maar de eerste letter is altijd een hoofdletter, gevolgd door een spatie, dan de dag gevolgd door een komma, nog een spatie en dan het jaar.

Bijvoorbeeld: 20 september 2019 of 5 maart 2022


Om deze datum te extraheren kunnen we de volgende reguliere expressie (REGEX) gebruiken:

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d {2 })

Laten we de uitdrukking opsplitsen in individuele groepen. Deze groepen worden gescheiden door enkele haakjes ().

In de eerste groep zoeken we naar de 3-maandsletters: ([A-Z][a-z]{2})

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Maan uittrekken

  • [A-Z] Deze string betekent dat we zoeken naar een hoofdletter van A-Z. Bijvoorbeeld de letter "S" uit sept. Houd er rekening mee dat hoofdletters en kleine letters afzonderlijk worden behandeld.
  • [a-z]{2} Deze tekenreeks betekent dat we zoeken naar twee kleine letters van a-z. Dat zou ep zijn van "Sep".

Dan zoeken we naar een spatie met de volgende string: \s

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Uittrekdatum

Zoek in de tweede groep de aanduiding van de dag in cijfers: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

De dag moet worden gescheiden door drie verschillende uitspraken.
Omdat we niet weten welke datum in het document kan voorkomen, kan dit de eerste dag (01) of de laatste dag (31) van de maand zijn, zodat u moeten dienovereenkomstig verschillende opties worden genoemd.
Deze worden gescheiden door het teken "|".
Voorbeeld: (1|2|3) = 1 of 2 of 3.

Er volgt een lijst met toegestane tekens tussen vierkante haken. Meerdere vierkante haken komen overeen met meerdere tekens. Als een uitdrukking meerdere karakters moet beschrijven, worden deze eenvoudigweg achter elkaar toegevoegd. Vervolgens wordt de invoer van links naar rechts vergeleken met uw uitdrukking.

Natuurlijk hoeven niet alle nummers vermeld te worden. Over het geheel genomen staat de volledige uitdrukking tussen haakjes echter voor slechts één teken.

  • 0[1-9] Deze tekenreeks betekent dat het getal kan beginnen met een "0", gevolgd door een getal van 1 tot en met 9. We krijgen dus elk getal van 01 - 09.
  • De string zoekt naar een getallenpatroon dat begint met een nul. Als uw document normaal gesproken de datum "5 maart 2022" heeft, dus zonder het cijfer "0" vóór het cijfer "5", wordt de "0" in de tekenreeks weggelaten.

  • [12][0-9] Deze tekenreeks betekent dat het getal kan beginnen met een "1" of een "2", gevolgd door een willekeurig getal van 0 tot en met 9. Het resultaat kan een willekeurig getal zijn nummer van 10 - 29 komt uit.
  • 3[01] Deze tekenreeks betekent dat een getal kan beginnen met een "3", gevolgd door een "0" of een "1". Het resultaat kan 30 of 31 zijn.

Nadat de opties voor de dag zijn gedefinieerd, moet de uitdrukking voor het jaar worden bepaald.

Nu zoeken we naar de komma en de spatie: ,\s

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Jaar uittrekken

In de laatste groep zoeken we naar het jaartal: (20\d{2})

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d {2 })

We gaan op zoek naar een willekeurig jaar, maar weten dat het ≥ 2000 zal zijn.

  • 20 Deze tekenreeks betekent dat we zoeken naar een jaar dat begint met precies 20.
  • \d{2} Deze tekenreeks betekent dat we zoeken naar een mogelijk getal van twee cijfers, d.w.z. van "00" tot "99".

Het teken \d komt bijvoorbeeld overeen met een cijfer tussen 0 en 9, terwijl het teken \d{2} overeenkomt met een getal van twee cijfers.

Variables are read from the document and made available
Variables are read from the document and made available

Als de reguliere expressie nu in PaperOffice wordt gebruikt, is het eindresultaat de datum "20 september 2019".

Op deze manier kan elke datum uit een document worden gelezen zonder dat we de oorspronkelijke waarde kennen. Deze groepen kunnen ook ergens anders worden gebruikt en vrij worden verplaatst om andere datumformaten te lezen.

Hier is nog een voorbeeld:

Read PaperOffice Invoice 2 with Regex
Invoices with different formats can be easily read

De datum begint met de dag, gevolgd door de maand, bestaande uit letters, maar de eerste letter is altijd een hoofdletter, gevolgd door een punt, nog een spatie en dan het jaar.

Om deze datum te extraheren kan de zojuist beschreven reguliere expressie (REGEX) worden gebruikt, met een extra aanvulling, omdat in het tweede voorbeeld de "punt" na de maand wordt gegeven.

Dit kan worden opgegeven met de volgende tekenreeks: \.

De volledige expressie ziet er dus als volgt uit:

(0[1-9]|[12][0-9]|3[01])\s([A-Z][a-z]{2})\.\s(20\d{2 })

U kunt uw gemaakte regex altijd valideren door naar de pagina https://regex101.com te gaan om deze samen met uw invoegtekst. Regex101 controleert niet alleen of uw regex correct is, maar legt u ook het grootste deel van de reguliere expressie uit.

En dus kun je de verschillende tekensets voor alles gebruiken.

Bestelnummer lezen dankzij REGEX

Als ander voorbeeld willen we graag het ordernummer uit het document lezen.

Variables are read from the document and made available
Order numbers are extracted from the document

Het bestelnummer op ons document is als volgt opgemaakt:

Dit begint altijd met de hoofdletters XYB, gevolgd door een koppelteken, gevolgd door 8 cijfers, nog een koppelteken en ten slotte 3 willekeurige hoofdletters.

Voorbeelden van bestelnummers zijn:

XYB-12316723-LSH

XYB-98456723-JRD

Om dit ordernummer te extraheren kunnen we de volgende reguliere expressie gebruiken:

XYB-\d{8}-[A-Z]{3}

Laten we de uitdrukking één voor één opsplitsen.

Eerst zoeken we naar precies de eerste 3 hoofdletters met het streepjessymbool: XYB-

XYB\d{8}-[A-Z]{3}

Daarna zoeken we naar 8 cijfers gevolgd door nog een koppelteken: \d{8}-

XYB-\d{8}-[A-Z]{3}

Het teken \d komt, zoals eerder beschreven, overeen met een cijfer tussen 0 en 9, terwijl het teken \d{8} overeenkomt met een getal van acht cijfers.

En ten slotte zoeken we naar drie hoofdletters: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Zo zou PaperOffice er uitzien met de volgende bestelnummers:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

de eerste twee XYB-12316723-LSH en XYB-98456723-JRD

herkennen.

We hebben voor dit voorbeeld een link naar Regex101 voorbereid, waarin de zojuist beschreven reguliere expressie staat vermeld met 4 voorbeelden. U ziet dat slechts twee van de opgegeven bestelnummers aan onze eisen voldoen.

Lees artikelnummers dankzij REGEX

Het artikelnummer op ons document is als volgt opgemaakt:

Dit begint altijd met twee hoofdletters, gevolgd door een koppelteken, gevolgd door 6 cijfers.

Read PaperOffice invoice with Regex
Various item numbers can be read from invoices

Voorbeelden van artikelnummers zijn:

MS-863398

DS-452829

Om deze artikelnummers te extraheren, kunnen we de volgende reguliere expressie gebruiken:

[A-Z]{2}-\d{6}

PaperOffice kan uw documenten digitaliseren en integreren met uw systemen om de gegevensextractie uit facturen en andere documentatie te automatiseren zonder dat u tonnen code hoeft te schrijven en vervolgens te onderhouden.

Neem contact met ons op om uw gebruiksscenario's te bespreken en meer te leren over hoe PaperOffice u kan helpen nog competitiever te worden in het digitale tijdperk.

Aan de slag gaan is eenvoudiger dan u denkt.

Ben je nog steeds bang dat je het niet haalt? Lees casestudy's van onze klanten over de PaperOffice-integratie in uw zakelijke leven en overtuig uzelf van de eenvoud of vraag eenvoudigweg een testinstallatie aan.

FAQs

Ter afsluiting beantwoorden we nog een paar veelgestelde vragen over het onderwerp. "REGEX reguliere expressies gebruiken voor geautomatiseerde gegevensverzameling en -extractie (deel 2)":

Voor wie is een papierloos kantoor geschikt?

Het snelle en gemakkelijke antwoord op de vraag is: voor elk bedrijf. Alle bedrijfssectoren en -groottes profiteren van een papierloos kantoor, van MKB-bedrijven en start-ups tot grote bedrijven. De conversie is echter vooral waardevol voor kleine en middelgrote bedrijven: De vermindering van de verwerkingsinspanningen en -kosten maakt het budget vrij dat nodig is voor verdere groeiboosters.

Kan ik een cloudgebaseerde DMS-provider gebruiken voor mijn papierloze kantoor?

Nee. Een andere factor die op ieders lippen ligt sinds de AVG uiterlijk in 2018 van kracht werd, is gegevensbescherming. DMS-oplossingen en DMS-software worden gebruikt voor het verwerken, beheren en opslaan van documenten die vaak gevoelige, persoonlijke gegevens bevatten. Bij overtredingen van de AVG voorziet de wetgever in hoge boetes.

Conclusie

  • De voordelen rechtvaardigen de moeite en kosten

    Digitaal werken en oude documenten naar het nieuwe tijdperk brengen zal de beste investering zijn om in de toekomst ongelooflijk veel tijd, geld en zenuwen te besparen.

  • Je hebt iemand nodig die het weet

    Je hebt geen eigen IT-specialist nodig om te profiteren van alle voordelen van digitalisering.
    Wat je nodig hebt is de juiste partner aan je zijde die dankzij zijn ervaring precies kan implementeren wat je nodig hebt. Vermijd paniekzaaierij en kies testposities in plaats van mooie PowerPoint-presentaties zonder deze echt te hebben getest.

  • De hardware is meestal al beschikbaar

    De ervaring leert dat vrijwel elke operatie, bedrijf en bedrijf een groot kopieerapparaat heeft dat zijn potentieel niet benut. Deze apparaten houden van massascans, zijn tolerant ten opzichte van paperclips en kunnen de basis vormen voor een digitale start zonder investering in een scanner.

  • Goedkoper dan verwacht met het juiste DMS

    Voorkom kostenvallen met DMS/ECM-systemen waarbij u genadeloos overgeleverd bent aan de genade van de fabrikanten. Sluit geen compromissen als het gaat om de eigen beheermogelijkheden, zoals het aanleren van documenten en het zelf doen van instellingen. Als u hulp nodig heeft, helpt de fabrikant u graag, maar blijft onafhankelijk.

  • Digitale automatisering is de toekomst

    Procedures zullen in de toekomst volledig identiek zijn, maar volledig geautomatiseerd.
    Factuur binnen? De workflow wordt geactiveerd en alles gaat op de gedefinieerde manier.
    Door alle 1000 mappen zoeken? Geen probleem, want je hebt je eigen Google!

PaperOffice lost elk probleem op: gegarandeerd.

Case studie

Het digitale pad van het patriarchaat met PaperOffice DMS

"We zijn blij na anderhalf jaar werk en toch hebben we dit fantastische meesterwerk nog niet volledig benut."

Pedro Silva
administratief medewerker van het patriarchaat van Lissabon