The PaperOffice Insider Nyhetsbrev
The PaperOffice Insider Nyhetsbrev
Vi ønsker å være venner

Høyest mulige rabatttilbud

Eksklusive innside-nyheter

Gratis bonusoppgraderinger

Høyest mulige rabatttilbud

Eksklusive innside-nyheter

Gratis bonusoppgraderinger

Vennskap Tillit Æresord
Vi vil aldri gi din e-postadresse til noen andre og hver e-post inkluderer en avmeldingskobling med ett klikk.

Utfør intelligent dokumentbehandling riktig


Pro tips

Automatisk datafangst med regulære uttrykk: Hvordan effektivt behandle store mengder data ved hjelp av regulære uttrykk.


Nøkkelen til automatisert datafangst og dataekstraksjon.

I den aktuelle artikkelen viser vi deg hvordan du kan bruke regulære uttrykk for å dra nytte av automatisert dokumentbehandling. Dette gjelder spesielt for dokumenter fra alle typer bedrifter.

Vi gir deg presise eksempler på regulære uttrykk og forklarer trinn for trinn hva de betyr og hvordan du kan bruke dem.

På denne måten kan du øke driftseffektiviteten, redusere menneskelige feil ved å øke nøyaktigheten, senke gjeldende kostnader, bevare dataintegriteten og forbedre datasikkerheten.

Den aktuelle artikkelen utvider den første delen om intelligent dokumentbehandling, du kan gå direkte til artikkelen her.

Å trekke ut spesifikke dataelementer fra dokumenter kan være en svært kostbar og tidkrevende oppgave. Ofte blir skanninger av dokumenter sendt til store outsourcing-datafangstfirmaer hvor dataene blir lagt inn manuelt.

Det er imidlertid ulike ulemper med denne tilnærmingen, som følger:

  • Dokumentets sikkerhet kan være truet
  • Det innføres en forsinkelse i arbeidsflytprosesser
  • Sammenlignet med automatisert utvinning er manuell indeksering en treg prosess
  • Manuell indeksering kan ikke skaleres godt for store prosjekter
  • Manuell indeksering kan introdusere feil i dataene
  • Hvis et dokument blir endret, må hele prosessen startes på nytt

Samt mange flere.

Tross utbredelsen av skanning, er det fortsatt en stor del av forretningsvirksomheten som baserer seg på papirbaserte dokumenter. Det anslås at 85% av fakturaer fortsatt blir utstedt på papir.

I tillegg er det en haug med eksisterende papirer som må lagres i enorme lager!

Hva er et regulært uttrykk?

Regulære uttrykk, også kjent som "Regex," er et kraftig verktøy for å søke og manipulere tekst. De gjør det mulig å gjenkjenne og redigere komplekse mønstre i tekster.

Et regulært uttrykk består av en kombinasjon av vanlige bokstaver og spesielle metategn som har spesielle funksjoner.

Regulære uttrykk kan også brukes til å erstatte eller manipulere tekst. For eksempel kan et regulært uttrykk brukes til å:

De er et meget kraftig verktøy for tekstbehandling og automatisering av oppgaver.

Hvordan kan regulære uttrykk hjelpe bedrifters automatisering?

Økningen av digitale dokumenter med forskjellige typer, forskjellige navngivingsregler og manglende søkesystem gjør søkeprosessen og utvinningen av dokumentinformasjon fra bestemte innhold vanskelig, spesielt når det gjelder uklassifiserte dokumenter, blir søket unøyaktig og tar lang tid.

Regulære uttrykk (Regex) gir en rask og kraftig metode for å søke, ekstrahere og erstatte bestemte data i dokumenter. Regulære uttrykk er i utgangspunktet en spesialtegnstreng som beskriver et søkemønster.

Slik blir dokumentinnholdet søkt etter og utlest med en bestemt tegnstreng. Regulære uttrykk er en måte å definere mønstre i informasjon ved hjelp av spesielle symboler på.

Regex-metoden egner seg best for dokumenter der posisjonene til de utrakkede verdiene kan variere og enkle dokumentmaler ikke fungerer.

Du finner en liste over enkle uttrykk i vår ComDesk.

PaperOffice Regex Beispielsammlung
Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

Hvordan bygge sammen regulære uttrykk?

Regulære uttrykk kan bygges sammen på forskjellige måter, avhengig av hvilken type mønster som søkes.

Bruk metategn som ., *, +, ?, ^, $, [] og [a-z] for å tilsvare visse typer karakterer eller mønstre.

Bruk alternative deler: Bruk spørsmålstegnet (?) eller stjernen (*) for å gjøre deler av mønsteret valgfritt.

Bruk grupper: Bruk parenteser for å gruppere deler av mønsteret og behandle dem som en enhet.

Merk at reglene for regulære uttrykk kan variere avhengig av programmeringsspråket. Så det er viktig å lese dokumentasjonen for de verktøyene som brukes. Regex uttrykkene som er skrevet for PaperOffice må være kompatible med ECMAScript og PCRE2.

Tips

Når det gjelder "Automatisert DOKUMENTLAGRING / REGEX & Variabler / Automatisert fakturabehandling" er det også en video på YouTube som forklarer denne prosessen enkelt og forståelig:

Hvordan kan jeg ekstrahere informasjon fra dokumentet mitt med REGEX?

Praktiske eksempler

I denne artikkelen vil vi vise deg hvordan du kan ekstrahere hvilken som helst data fra et dokument i PaperOffice ved hjelp av flerleddet regulæruttrykk og deretter automatisk bruke dataene som nøkkelord for dokumentet.

Nedenfor har vi opprettet et eksempeldokument som har en spesifikk dato. Dette dokumentet inneholder en faktura. Datoformatet i dokumentet vårt er som følger:

PaperOffice Rechnung mit Regex zu auslesen
Informationen automatisiert aus Rechnungen extrahieren

Måned bestående av bokstaver, men hvor den første bokstaven alltid er stor, etterfulgt av et mellomrom, deretter dag etterfulgt av komma og et ytterligere mellomrom, og til slutt året.

For eksempel: Sep 20, 2019 eller Mär 05, 2022


For å ekstrahere denne datoen, kan vi bruke følgende regulære uttrykk (REGEX):

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

La oss bryte uttrykket ned i separate grupper. Disse gruppene er skilt med vanlige parenteser ().

I den første gruppen søker vi etter de 3 bokstavene som representerer måneden: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Ekstrahere måneden

  • [A-Z] Denne strengen betyr at vi søker etter en stor bokstav fra A til Z. For eksempel bokstaven „S“ i Sept. Vær oppmerksom på at store og små bokstaver behandles separat.
  • [a-zä]{2} Denne strengen betyr at vi søker etter to små bokstaver fra a til z og også ä (for månedsnavnet i det tyske språket „März“). Dette vil være ep fra „Sep“ eller är fra det tyske „Mär“.

Deretter søker vi etter et mellomrom ved hjelp av følgende streng: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Ekstrahere dagen

I den andre gruppen søker vi etter tallverdien som representerer dagen: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Dagen må være delt inn i tre separate muligheter. Ettersom vi ikke vet hvilken dato som kan vises i dokumentet, kan det være den første dagen (01), eller den siste dagen (31) i måneden, så vi må legge til flere alternativer for datoen.Disse alternativene separeres med symbolet „|“.Som et eksempel: (1|2|3) = 1 eller 2 eller 3.

Inne i firkantede parenteser følger en liste over tillatte tegn. Flere sett med firkantede parenteser betyr flere tegn. Hvis et uttrykk skal inneholde flere tegn, listes de etter hverandre. Databehandlingen går deretter fra venstre mot høyre og sammenligner hver inndatan.

Naturligvis trenger du heller ikke å inkludere alle tall. Samlet sett er hele den klammerede uttrykket representert som ett tegn.

  • 0[1-9] Denne strengen betyr at tallet kan starte med „0“, etterfulgt av et tall fra 1 til 9. Dermed kan vi få hvilket som helst tall fra 01-09.
  • Uttrykket søker etter et mønster som begynner med „0“. Hvis dokumentet ditt normalt inneholder en dato „5. Mars 2022“, uten at tallet „0“ er plassert foran tallet „5“, vil du kunne utelate tallet „0“ i det klammererte uttrykket.

  • [12][0-9] Denne strengen betyr at tallet kan begynne med „1“ eller „2“, etterfulgt av et hvilket som helst tall mellom 0 og 9. Som et resultat kan hvilket som helst tall fra 10 til 29 bli funnet.
  • 3[01] Denne strengen betyr at tallet kan begynne med „3“, etterfulgt av „0“ eller „1“. Resultatet kan være 30 eller 31.

Etter at datomulighetene er definert, må du spesifisere uttrykket for året.

Deretter søker vi etter kommaet og mellomrommet: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Ekstrahere året

I den siste gruppen søker vi etter året: (20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Vi begynner med å søke etter et hvilket som helst år, men vi vet at det vil være ≥ 2000.

  • 20 Denne strengen betyr at vi søker etter et hvilket som helst år, som begynner med 20.
  • \d{2} Denne strengen betyr at vi søker etter et mulig tosifret tall, altså fra „00“ til „99“.

Tegnet \d betyr for eksempel et siffer mellom 0 og 9, og teg

Les ordrenummer ved hjelp av REGEX

Som et annet eksempel vil vi lese ut ordrenummeret fra dokumentet.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Auftragsnummern werden aus dem Dokument extrahiert

Ordrenummeret på dokumentet vårt er formatert som følger:

Det begynner alltid med store bokstaver XYB, etterfulgt av en bindestrek, deretter 8 tall, en annen bindestrek og til slutt 3 tilfeldige store bokstaver.

Eksempler på ordrenumre kan være:

XYB-12316723-LSH

XYB-98456723-JRD

For å ekstrahere dette ordrenummeret kan vi bruke følgende regulære uttrykk:

XYB-\d{8}-[A-Z]{3}

La oss bryte uttrykket ned.

Først søker vi nøyaktig de første 3 store bokstavene med bindestrek-symbolet: XYB-

XYB-\d{8}-[A-Z]{3}

Deretter søker vi etter 8 tall etterfulgt av en annen bindestrek: \d{8}-

XYB-\d{8}-[A-Z]{3}

Tegnet \d, som tidligere nevnt, står for et tall mellom 0 og 9, igjen søker tegnet \d{8} etter åtte-sifret tall.

Og til slutt søker vi etter 3 vilkårlige store bokstaver: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Slik vil PaperOffice kunne kjenne igjen de to første ordrenummene XYB-12316723-LSH og XYB-98456723-JRD fra følgende ordrenumre:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

Vi har forberedt en lenke til Regex101 med det nevnte regulære uttrykket og 4 eksempler. Du vil se at bare to av de angitte ordrenummrene oppfyller kravene våre.

Les artikkelnumre ved hjelp av REGEX

Artikkelnummeret på vårt dokument er formatert som følger:

Det begynner alltid med to store bokstaver, etterfulgt av en bindestrek, deretter 6 tall.

PaperOffice Rechnung mit Regex zu auslesen
Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

Eksempler på artikkelnumre kan være:

MS-863398

DS-452829

For å ekstrahere disse artikkelnumrene kan vi bruke følgende regulære uttrykk:

[A-Z]{2}-\d{6}

PaperOffice kan digitalisere og integrere dokumentene dine i systemene dine for å automatisere dataekstraksjonen fra fakturaer og andre dokumenter, uten å måtte skrive og vedlikeholde utallige koder.

Kontakt oss for å diskutere dine bruksområder og lære mer om hvordan PaperOffice kan hjelpe deg med å være enda mer konkurransedyktige i den digitale tidsalderen.

Det er enklere å komme i gang enn du tror.

Er du fortsatt bekymret for at du ikke vil klare det? Les våre kundecase-studier om PaperOffice-integrasjon i bedriftslivet ditt og se selv hvor enkelt det er, eller be om en prøveinstallasjon.

FAQs

Til slutt, svarer vi på noen flere ofte stilte spørsmål om emnet. "Bruk av regulære uttrykk REGEX for automatisert datainnsamling og -ekstraksjon (Del 2)":

Hvem er et papirløst kontor egnet for?

Det raske og enkle svaret på spørsmålet er: for enhver bedrift. Alle bransjer og størrelser av bedrifter, fra SMB-er til oppstartsselskaper til store selskaper, vil dra nytte av et papirløst kontor. Men det er spesielt verdifullt for små og mellomstore bedrifter: Ved å redusere arbeids- og kostnadsbyrden frigjøres budsjettet som trengs for videre vekst.

Kan jeg bruke en skybasert DMS-leverandør for mitt papirløse kontor på selskapet?

Nei. En annen faktor som har vært mye snakket om, spesielt etter at personvernforordningen (GDPR) trådte i kraft i 2018, er personvern. DMS-løsninger og DMS-programvare brukes til å behandle, administrere og lagre dokumenter som ofte inneholder sensitive personopplysninger. Lovgiveren har fastsatt høye bøter for brudd på personvernreglene.

Konklusjon

  • Fordelene rettferdiggjør innsats og kostnader

    Å jobbe digitalt og bringe gamle dokumenter inn i den nye tidsalderen vil være den beste nøkkelinvesteringen for å spare utrolig mye tid, penger og nerver i fremtiden.

  • Du trenger noen som har kunnskap om dette

    Du trenger ikke en egen IT-spesialist for å dra nytte av fordelene med digitalisering. Det du trenger er den rette partneren ved din side som kan implementere nøyaktig det du trenger basert på sin erfaring. Unngå skremmere og velg tester i stedet for fancy PowerPoint-presentasjoner uten å ha testet det ordentlig.

  • Maskinvaren er mest sannsynlig allerede tilgjengelig

    Erfaringsmessig har nesten alle bedrifter allerede en stor kopimaskin som ikke utnytter sitt fulle potensiale. Disse enhetene er glade i massevis av skanning, tåler bruk av binders og kan være utgangspunktet for en digital start uten behov for å investere i en skanner.

  • Billigere enn forventet med riktig DMS

    Unngå kostnadsfeller med DMS/ECM-systemer der du blir fullstendig underlagt produsentene. Ikke gå på kompromiss når det gjelder egne administrative muligheter, for eksempel å legge inn dokumenter selv og gjøre innstillinger. Hvis du trenger hjelp, hjelper produsenten deg gjerne, men vær selvstendig og uavhengig.

  • Digital automatisering er fremtiden

    Fremover vil prosedyrer være helt identiske, men fullstendig automatisert.
    En faktura kommer inn? Arbeidsflyten starter og alt går sin forhåndsdefinerte vei.Søke gjennom alle 1000 arkivmapper? Ingen problem, fordi du har din egen Google!

PaperOffice løser enhver problem: Garantert.

Case studie

Patriarkatets digitale bane med PaperOffice DMS

"Vi er glade etter halvannet år med arbeid, og likevel har vi ennå ikke utnyttet dette fantastiske mesterverket fullt ut."

Pedro Silva
administrativ assistent for patriarkatet Lisboa