The PaperOffice Insider Nyhedsbrev
The PaperOffice Insider Nyhedsbrev
Vi vil være venner

Højeste mulige rabattilbud

Eksklusive insider nyheder

Gratis bonusopgraderinger

Højeste mulige rabattilbud

Eksklusive insider nyheder

Gratis bonusopgraderinger

Venskab Tillid Æresord
Vi giver aldrig din e-mail-adresse til andre, og hver e-mail inkluderer et afmeldingslink med et enkelt klik.

Intelligent dokumenthåndtering udføres korrekt


Pro tip:

Automatisk dataindsamling med regulære udtryk: Hvordan man effektivt kan behandle store datamængder ved hjælp af regulære udtryk.


Nøglen til automatiseret dataindsamling og dataudtrækning.

I den aktuelle artikel viser vi dig, hvordan du kan bruge regulære udtryk til at nyde fordelene ved automatiseret dokumentbehandling. Dette gælder især for dokumenter fra virksomheder i enhver branche.

Vi viser dig nøjagtige eksempler på regulære udtryk og forklarer trin for trin, hvad de betyder, og hvordan du kan bruge dem.

På denne måde kan du øge din driftseffektivitet, reducere menneskelige fejl ved at øge nøjagtigheden, reducere dine nuværende omkostninger, opretholde dataintegritet og forbedre datasikkerheden.

Den aktuelle artikel udvider den første del om intelligent dokumentbehandling, du kan direkte til artiklen her.

Uddraget af bestemte dataelementer fra dokumenter kan være en yderst dyr og tidskrævende opgave. Ofte sendes scans af dokumenter til store outsourcing-dataindførselsvirksomheder, hvor dataene indtastes manuelt.

Der er dog forskellige ulemper ved denne tilgang, som følger:

  • Dokumentsikkerheden kan kompromitteres
  • Der indføres forsinkelse i arbejdsgangprocesser
  • Manuel indeksering er en langsommere proces sammenlignet med automatiseret ekstraktion
  • Manuel indeksering skalerer ikke godt til store projekter
  • Manuel indeksering kan muligvis introducere fejl i dataene
  • Hvis et dokument ændres, starter hele processen igen

Samt mange flere.

Trods udbredelsen af scanning er en stor del af forretningstransaktioner stadig baseret på papirbaserede dokumenter. Det vurderes, at 85% af fakturaerne stadig udstedes på papir.

Derudover er der bunkevis af eksisterende papir, der skal opbevares i store lagerhaller!

Hvad er et regulært udtryk?

Regulære udtryk, også kendt som "Regex", er et kraftfuldt værktøj til at søge efter og manipulere tekst. De giver mulighed for at genkende og redigere komplekse mønstre i tekst.

Et regulært udtryk består af en kombination af almindelige bogstaver og specielle metategn, der har særlige funktioner.

Regulære udtryk kan også bruges til at erstatte eller manipulere tekst. For eksempel kan et regulært udtryk bruges.

De er et meget kraftfuldt værktøj til tekstbehandling og automatisering af opgaver.

Hvordan kan regulære udtryk hjælpe med virksomhedens automatisering?

Stigningen i digitale dokumenter med forskellige typer, forskellige navneregler og utilstrækkeligt søgesystem gør søgeprocessen samt ekstraktionsprocessen af dokumentoplysninger fra bestemte indhold svært, især når det drejer sig om uklassificerede dokumenter, hvilket gør søgningen unøjagtig og tidskrævende.

Regulære udtryk (Regex) giver en hurtig og kraftfuld metode til at søge, udtrække og erstatte visse data i dokumenter. Regulære udtryk er i bund og grund en særlig tekststreng, der beskriver et søgemønster.

På denne måde søges dokumentindholdet efter en forudbestemt streng og placeres.

Regulære udtryk er en måde at definere mønstre i information ved hjælp af specielle symboler.

Regex-metoden er bedst egnet til dokumenter, hvor positionerne af de udtrukne værdier kan variere, og enkle dokumentskabeloner ikke er tilstrækkelige.

Du kan finde en liste over enkle udtryk i vores ComDesk.

PaperOffice Regex Beispielsammlung
Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

Hvordan kan jeg konstruere regulære udtryk?

Regulære udtryk kan konstrueres på forskellige måder, afhængigt af hvilken type mønster der søges efter.

Brug metategn som ., *, +, ?, ^, $, [] og [a-z] til at repræsentere visse typer tegn eller mønstre.

Brug valgfri dele ved at bruge spørgsmålstegnet (?) eller stjernetegnet (*) for at gøre dele af mønsteret valgfrit.

Brug grupper ved at bruge parenteser til at gruppere dele af mønsteret og behandle dem som en enhed.

Det er vigtigt at bemærke, at de regler, der gælder for regulære udtryk, kan variere afhængigt af programmeringssproget. Så det er vigtigt at læse dokumentationen for de værktøjer, der anvendes. RegEx, der er skrevet til PaperOffice, skal være kompatible med ECMAScript og PCRE2.

Tip

Der er også en video på YouTube om emnet "Automatiseret dokumenthåndtering / REGEX & variabler / Automatiseret fakturabehandling", der let og forståeligt forklarer denne proces:

Hvordan ekstraherer jeg oplysninger fra mit dokument ved hjælp af REGEX?

Praktiske eksempler

I den følgende artikel vil vi demonstrere, hvordan du ved hjælp af flerleddede regulære udtryk (REGEX) kan ekstrahere enhver form for data fra et dokument i PaperOffice og automatisk tilføje det som nøgleord til dokumentet.

Nedenfor har vi oprettet et eksempeldokument, der har en bestemt dato. Dette dokument er en faktura. Mønstret for datoen i vores dokument er formateret som følger:

PaperOffice Rechnung mit Regex zu auslesen
Informationen automatisiert aus Rechnungen extrahieren

Måneden, der består af bogstaver, hvor det første bogstav altid er stort, efterfulgt af et mellemrum, derefter dagen efterfulgt af et komma, endnu et mellemrum og derefter året.

For eksempel: Sep 20, 2019 eller Mär 05, 2022


For at ekstrahere denne dato kan vi bruge følgende regulære udtryk (REGEX):

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Lad os nedbryde udtrykket i individuelle grupper. Disse grupper adskilles af almindelige parenteser ().

I den første gruppe søger vi efter de 3 bogstaver, der repræsenterer måneden: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Ekstrahering af månedsdato

  • [A-Z] Dette tegn angiver, at vi leder efter et stort bogstav fra A-Z. For eksempel bogstavet „S“ fra Sept. Bemærk, at store og små bogstaver behandles forskelligt.
  • [a-zä]{2} Dette tegn angiver, at vi leder efter to små bogstaver fra a-z og også bogstavet ä (til den månedlige navn i tysk „März“). For eksempel ep fra "Sep" eller är fra "Mär".

Derefter leder vi efter et mellemrum med følgende tegn: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Ekstrahering af dagsdato

I den anden gruppe søger vi efter en numerisk angivelse af dagen: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Dagsdelen skal adskilles ved hjælp af tre separate anvisninger.
Da vi ikke ved, hvilke datoangivelser der kan forekomme i dokumentet, kan den første dag (01) eller den sidste dag (31) i måneden forekomme, så forskellige muligheder skal specificeres.
Dette sker ved hjælp af tegnet „|“, der adskiller muligheder.
Eksempel: (1|2|3) = 1 eller 2 eller 3.

I kantede parenteser følger en liste over tilladte tegn. Mere end ét sæt kantede parenteser svarer til flere tegn.Hvis et udtryk skal beskrive flere tegn, placeres de simpelthen efter hinanden. Derefter sammenlignes indtastningen fra venstre mod højre med dit udtryk.

Det er selvfølgelig heller ikke altid nødvendigt at angive alle tal. Den fulde indkapslede udtryk repræsenterer dog kun ét tegn.

  • 0[1-9] Dette tegn angiver, at tallet kan starte med en "0", og derefter kan det være ethvert tal mellem 1 og 9. Så vi får et hvilket som helst tal mellem 01 og 09.
  • Dette tegn søger efter et tal, der begynder med et "0". Hvis dit dokument normalt har en datoangivelse "5. marts 2022", uden at tallet "0" er placeret foran tallet "5", vil "0" blive udeladt i dette tegn.

  • [12][0-9] Dette tegn angiver, at tallet kan starte med en "1" eller en "2", og derefter kan det være ethvert tal mellem 0 og 9. Resultatet kan være ethvert tal mellem 10 og 29.
  • 3[01] Dette tegn angiver, at tallet kan starte med en "3", og derefter kan det være en "0" eller en "1". Resultatet kan være 30 eller 31.

Efter at mulighederne for dagen er defineret, skal udtrykket for året bestemmes.

Nu leder vi efter kommaet og mellemrummet: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Ekstrahering af årsangivelse

I den sidste gruppe søger vi efter året: (20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Vi begynder med at søge efter ethvert år, men vi ved, at det vil være ≥ 2000.

  • 20 Dette tegn angiver, at vi leder efter ethvert år, der begynder med præcist 20.
  • \d{2} Dette tegn angiver, at vi leder efter et potentielt to-cifret tal, det vil sige fra "00" til "99".

Tegnet \

Læs bestillingsnummer med REGEX

Som et yderligere eksempel vil vi udtrække bestillingsnummeret fra dokumentet.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Auftragsnummern werden aus dem Dokument extrahiert

Bestillingsnummeret på vores dokument er formateret som følger:

Det begynder altid med store bogstaver XYB, efterfulgt af et bindestreg, efterfulgt af 8 tal, endnu en bindestreg og til sidst 3 tilfældige store bogstaver.

Eksempler på bestillingsnumre ville være:

XYB-12316723-LSH

XYB-98456723-JRD

For at udtrække dette bestillingsnummer kan vi bruge følgende regulære udtryk:

XYB-\d{8}-[A-Z]{3}

Lad os bryde udtrykket ned.

Først leder vi efter de første 3 store bogstaver med bindestreg-symbolet: XYB-

XYB-\d{8}-[A-Z]{3}

Derefter leder vi efter 8 tal efterfulgt af endnu en bindestreg: \d{8}-

XYB-\d{8}-[A-Z]{3}

Tegnet \d, som allerede beskrevet, står for et tal mellem 0 og 9, og tegnet \d{8} leder efter en ottecifret tal.

Og til sidst leder vi efter 3 vilkårlige store bogstaver: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Så PaperOffice ville udtrække de første to bestillingsnumre fra følgende:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

XYB-12316723-LSH og XYB-98456723-JRD

vill blive identificeret.

Vi har forberedt et link til Regex101 til dette eksempel, hvor det beskrevne regulære udtryk vises sammen med 4 eksempler. Du kan se, at kun to af de angivne bestillingsnumre opfylder vores krav.

Læs varenummer med REGEX

Varenummeret på vores dokument er formateret som følger:

Det begynder altid med to store bogstaver, efterfulgt af et bindestreg, efterfulgt af 6 tal.

PaperOffice Rechnung mit Regex zu auslesen
Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

Eksempler på varenumre ville være:

MS-863398

DS-452829

For at udtrække disse varenumre kan vi bruge følgende regulære udtryk:

[A-Z]{2}-\d{6}

PaperOffice kan digitalisere dine dokumenter og integrere dem i dine systemer for at automatisere dataudtrækning fra fakturaer og andre dokumenter, uden at du behøver at skrive og vedligeholde en masse kode.

Kontakt os for at diskutere dine brugsscenarier og læs mere om, hvordan PaperOffice kan hjælpe dig med at forblive konkurrencedygtig i den digitale tidsalder.

Det er lettere at komme i gang end du tror.

Er du stadig bekymret for, at du ikke kan klare det? Læs vores kundecase-studier om integrationen af PaperOffice i din forretningspraksis og overbevis dig selv om dets enkelhed eller anmod om en testinstallation.

FAQs

Endelig besvarer vi nogle flere ofte stillede spørgsmål om emnet. "Brug regulære udtryk REGEX til automatiseret dataindsamling og -ekstraktion (Del 2)":

Hvem er et papirløst kontor egnet til?

Det hurtige og nemme svar på spørgsmålet er: til enhver virksomhed. Alle virksomhedssektorer og størrelser, fra SMV'er til start-ups til store virksomheder, vil drage fordel af et papirløst kontor. Men overgangen er især værdifuld for små og mellemstore virksomheder: Ved at reducere arbejdsbyrden og omkostningerne frigives nødvendige midler til yderligere vækstfremmere.

Kan jeg bruge en cloud-baseret DMS-udbyder til mit papirløse kontor i virksomheden?

Nej. En anden faktor, der har været på alles læber siden Databeskyttelsesforordningens endelige ikrafttræden i 2018, er databeskyttelse. DMS-løsninger og DMS-software anvendes til behandling, håndtering og lagring af dokumenter, der ofte indeholder følsomme personlige oplysninger. Lovgivningen fastsætter høje bøder for overtrædelser af databeskyttelsesforordningen.

Konklusion

  • Fordele retfærdiggør indsats og omkostninger

    At arbejde digitalt og bringe gamle dokumenter ind i den nye tidsalder vil være den bedste nøgleinvestering for at spare utrolig meget tid, penge og nerver i fremtiden.

  • Du har brug for nogen, der kender til det

    Du behøver ikke en egen IT-specialist for at udnytte fordelene ved digitalisering.
    Det du har brug for er den rette partner ved din side, der gennem sine erfaringer kan implementere præcis det, du har brug for. Undgå skræmmekampagner og vælg prøveopstillinger i stedet for flotte PowerPoint-præsentationer uden at have testet det ordentligt.

  • Hardwaren er ofte allerede til stede

    Som erfaringen viser, har næsten alle virksomheder og firmaer en stor kopimaskine, der ikke udnytter sit potentiale. Disse enheder elsker masse-scanninger, er tolerante over for papirclips og kan danne basis for en digital start uden scannerinvestering.

  • Billigere end forventet med den rigtige DMS

    Undgå omkostningsfælder med DMS / ECM-systemer, hvor du er fuldstændig overladt til producenterne. Gør ingen kompromis med hensyn til egne administrationsmuligheder som f.eks. at selv lære dokumentet og foretage indstillinger. Hvis du har brug for hjælp, hjælper producenten dig gerne, men forbliv selvstændig og uafhængig.

  • Digital automatisering er fremtiden

    Processer vil fremover forløbe helt ens, men fuldt automatiseret.
    Regningen kommer ind? Workflowet udløser og alt går sin en gang defineret vej.
    Søgning i 1000 arkivmapper? Ikke noget problem, for du har dit eget Google!

PaperOffice løser enhver problemstilling: Garanteret.

Case-studie

Vejen til det digitale rådhus - digitalisering af administrationen

"Nem integration og drift af PaperOffice DMS gav den samlede løsning, som denne branche havde brug for: minimer papirforbruget, fremskynd søgeprocesserne, automatiser tildelingen til kontorassistenter og muliggør lagring af procesrelaterede data."

Mr. Carlos A. Garcia Marketing- og kommunikationschef