Der PaperOffice Insider Newsletter
Der PaperOffice Insider Newsletter
Wir möchten Freunde werden

Höchstmögliche Rabattangebote

Exklusive Insidernews

Kostenlose Bonus-Upgrades

Höchstmögliche Rabattangebote

Exklusive Insidernews

Kostenlose Bonus-Upgrades

Freundschafts-Vertrauen-Ehrenwort
Wir werden Ihre Emailadresse niemals an andere weitergeben und jede Email beinhaltet einen Link für die 1-Click-Abmeldung.

Intelligente Dokumentenverarbeitung richtig durchführen


Durch automatisierte Verarbeitung und Auslesung der Daten mit künstlicher Intelligenz (KI) kann ein Dokumentenmanagement System, wie PaperOffice DMS, Ihnen helfen, Ihre Unternehmenskosten auf bis zu 92% zu senken und betriebliche Effizienz zu steigern.

Profi-Tipp

Automatisierte Datenerfassung mit regulären Ausdrücken: Wie man mithilfe von regulären Ausdrücken große Datenmengen effizient verarbeiten kann.


Der Schlüssel zur automatisierten Datenerfassung und Datenextraktion.

Im aktuellen Artikel zeigen wir Ihnen, wie Sie reguläre Ausdrücke nutzen können, um Ihre Vorteile bei der automatisierten Dokumentenverarbeitung zu genießen. Dies gilt insbesondere für Dokumente von Unternehmen jeglicher Branche.

Wir zeigen Ihnen exakte Beispiele von regulären Ausdrücken und erklären Schritt-für-Schritt, was diese bedeuten und auch Sie sie einsetzen können.

So können Sie Ihre betriebliche Effizienz steigern, menschliche Fehler durch höhere Genauigkeit reduzieren, Ihre aktuellen Kosten senken, Datenintegrität bewahren und Datensicherheit verbessern können.

Der aktuelle Artikel erweitert den ersten Teil über die intelligente Dokumentenverarbeitung, hier gelangen Sie direkt zum Artikel.

Das Extrahieren bestimmter Datenelemente aus Dokumenten kann eine äußerst teure und zeitaufwändige Aufgabe sein. Häufig werden Scans von Dokumenten an große Outsourcing-Datenerfassungsunternehmen gesendet, wo die Daten von Hand eingegeben werden.

Es gibt jedoch verschiedene Nachteile bei diesem Ansatz, wie folgt:

  • Die Dokumentensicherheit kann dadurch gefährdet werden
  • In Workflow Prozesse wird eine Verzögerung eingeführt
  • Im Vergleich zur automatisierten Extraktion ist die manuelle Indizierung ein langsamer Prozess
  • Manuelle Indizierung lässt sich bei großen Projekten nicht gut skalieren
  • Manuelle Indexierung kann möglicherweise Fehler in die Daten einführen
  • Sollte ein Dokument verändert werden, geht der gesamte Vorgang wieder von vorne los

Sowie viele weitere.

Trotz der Verbreitung des Scannens basiert ein großer Teil der Geschäftstransaktionen immer noch auf papierbasierten Dokumenten. Es wird geschätzt, dass 85 % der Rechnungen immer noch auf Papier ausgestellt werden.

Außerdem gibt es Berg von vorhandenem Papier, die in riesigen Lagern gelagert werden müssen!

Was ist ein regulärer Ausdruck?

Reguläre Ausdrücke, auch bekannt als "Regex" sind ein mächtiges Werkzeug zum Suchen und Manipulieren von Texten. Sie ermöglichen es, komplexe Muster in Texten zu erkennen und zu bearbeiten.

Ein regulärer Ausdruck besteht aus einer Kombination von normalen Buchstaben und speziellen Metazeichen, die besondere Funktionen haben.

Reguläre Ausdrücke können auch verwendet werden, um Text zu ersetzen oder zu manipulieren. Beispielsweise kann ein regulärer Ausdruck verwendet werden.

Sie sind ein sehr mächtiges Werkzeug für die Textverarbeitung und die Automatisierung von Aufgaben.

Wie können reguläre Ausdrücke der Automatisierung eines Unternehmens helfen?

Die Zunahme digitaler Dokumente mit unterschiedlichen Typen, unterschiedlichen Benennungsregeln und ohne ausreichendes Suchsystem erschwert den Suchprozess sowie den Ausleseprozess der Dokumenteninformationen von bestimmten Inhalten, insbesondere wenn es sich um nicht klassifizierte Dokumente handelt, wird die Suche ungenau und dauert lange.

Reguläre Ausdrücke (Regex) bieten eine schnelle und leistungsstarke Methode zum Suchen, Extrahieren und Ersetzen bestimmter Daten in Dokumenten. Reguläre Ausdrücke sind im Wesentlichen eine spezielle Textzeichenfolge zur Beschreibung eines Suchmusters.

So wird der Dokumenteninhalt nach einer vorgegebenen Zeichenkette gesucht und ausgelesen. Reguläre Ausdrücke sind eine Möglichkeit, Muster in Informationen zu definieren, indem spezielle Symbole verwendet werden.

Die Regex Methode eignet sich am besten für Dokumente, bei welchen sich die Positionen der auszulesenden Werte variieren können und einfache Dokumentvorlagen nicht greifen können.

Eine Liste mit einfachen Ausdrücken finden Sie in unserem ComDesk.

PaperOffice Regex Beispielsammlung
Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

Wie kann ich reguläre Ausdrücke zusammenbauen?

Reguläre Ausdrücke können auf verschiedene Weise zusammengebaut werden, je nachdem, welche Art von Muster gesucht wird.

Metazeichen verwenden, wie ., *, +, ?, ^, $, [] und [a-z], um bestimmte Arten von Zeichen oder Muster zu repräsentieren.

Optionale Teile verwenden: Verwenden Sie das Fragezeichen (?) oder das Sternzeichen (*), um Teile des Musters optional zu machen.

Gruppen verwenden: Verwenden Sie runde Klammern, um Teile des Musters zu gruppieren und diese als eine Einheit zu behandeln.

Es ist wichtig zu beachten, dass die Regeln für reguläre Ausdrücke je nach Programmiersprache unterschiedlich sein können. So ist es wichtig die Dokumentationen der verwendeten Tools zu lesen. Die für PaperOffice geschriebenen RegEx müsssen kompatibel zu ECMAScript und PCRE2 sein.

Tipp

Zum Thema "Automatisierte Dokumenten ABLAGE / REGEX & Variablen / Rechnungsverarbeitung automatisieren" gibt es ebenfalls ein Video auf YouTube, welches diesen Vorgang leicht und verständlich erklärt:

Wie extrahiere ich Informationen aus meinem Dokument mit REGEX?

Praxisbeispiele

Im aktuellen Artikel demonstrieren wir Ihnen, wie Sie dank mehrelementigen regulären Ausdrücken in PaperOffice jegliche Daten aus dem Dokument extrahieren und als Verschlagwortung zum Dokument automatisch hinterlegen können.

Nachfolgend haben wir ein Musterdokument erstellt, welches über ein spezifisches Datum verfügt. In diesem Dokument handelt es sich um eine Rechnung. Das Datumsmuster auf unserem Dokument ist wird wie folgt formatiert:

PaperOffice Rechnung mit Regex zu auslesen
Informationen automatisiert aus Rechnungen extrahieren

Monat, bestehend aus Buchstaben, jedoch wird der erste Buchstabe ist immer großgeschrieben, daraufhin folgt ein Leerzeichen, danach der Tag gefolgt von einem Komma, ein weiteres Leerzeichen und dann das Jahr.

Beispielsweise: Sep 20, 2019 oder Mär 05, 2022


Um dieses Datum zu extrahieren, können wir den folgenden regulären Ausdruck (REGEX) verwenden:

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Lassen Sie uns den Ausdruck in einzelne Gruppen aufschlüsseln. Diese Gruppen werden durch einfache Klammern () getrennt.

In der ersten Gruppe suchen wir nach den 3-Monatsbuchstaben: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Monatsangabe extrahieren

  • [A-Z] Diese Zeichenkette bedeutet, dass wir nach einem Großbuchstaben von A-Z suchen. Zum Beispiel der Buchstabe „S“ von Sept. Zu beachten ist, dass Groß- und Kleinschreibung getrennt behandelt wird.
  • [a-zä]{2} Diese Zeichenkette bedeutet, dass wir nach zwei Kleinbuchstaben von a-z und auch das ä (für den Monatsnamen in der deutschen Sprache „März“) suchen. Das wäre das ep von „Sep“ oder är vom deutschen „Mär“.

Dann suchen wir nach einem Leerzeichen mit folgender Zeichenkette: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Tagesangabe extrahieren

In der zweiten Gruppe suchen nach der Bezeichnung des Tages in Zahlen: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Die Tagesangabe muss durch drei verschiedene Anweisungen getrennt werden.
Da wird nicht wissen, welche Datumsangabe in dem Dokument vorkommen kann, es kann der erste Tag (01) oder auch der letzte Tag (31) des Monats vorkommen, so müssen dementsprechend verschiedene Optionen benannt werden.
Diese werden mit dem Zeichen „|“ getrennt.
Beispiel: (1|2|3) = 1 oder 2 oder 3.

In eckigen Klammern folgt eine Auflistung von Zeichen, die erlaubt sind. Mehrere rechteckige Klammern entsprechen mehreren Zeichen. Soll ein Ausdruck mehrere Zeichen beschreiben, werden diese einfach hintereinander gehangen. Dann wird die Eingabe von links nach rechts mit deinem Ausdruck verglichen.

Selbstverständlich müssen auch nicht immer alle Zahlen aufgeführt werden. Insgesamt steht der gesamte geklammerte Ausdruck aber nur für ein Zeichen.

  • 0[1-9] Diese Zeichenkette bedeutet, dass die Zahl mit einer „0“ beginnen kann, gefolgt von einer Zahl von 1 bis 9. Wir erhalten also eine beliebige Zahl von 01 – 09.
  • Die Zeichenkette sucht nach einem Zahlenmuster, welches mit einer Null anfängt. Falls Ihr Dokument normalerweise eine Datumsangabe „5. März 2022“ beinhaltet, also ohne, dass die Zahl „0“ vor der der Zahl „5“ steht, so wird die „0“ in der Zeichenkette weggelassen.

  • [12][0-9] Diese Zeichenkette bedeutet, dass die Zahl mit einer „1“ oder auch einer „2“ beginnen kann, gefolgt von einer beliebigen Zahl von 0 bis 9. Als Ergebnis kann eine beliebige Zahl von 10 - 29 rauskommen.
  • 3[01] Diese Zeichenkette bedeutet, dass eine Zahl mit einer „3“ beginnen könnte, gefolgt von einer „0“ oder einer „1“. Als Ergebnis könnte die 30 oder 31 sein.

Nachdem die Optionen für den Tag definiert wurden, sollte der Ausdruck für das Jahr bestimmt werden.

Jetzt suchen wir nach dem Komma und dem Leerzeichen: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Jahresangabe extrahieren

In der letzten Gruppe suchen wir nach dem Jahr: (20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Wir beginnen mit der Suche nach einem beliebigen Jahr, wissen jedoch, dass es ≥ 2000 sein wird.

  • 20 Diese Zeichenkette bedeutet, dass wir nach einem beliebigen Jahr suchen, beginnend mit genau 20.
  • \d{2} Diese Zeichenkette bedeutet, dass wir nach einer möglichen zweistelligen Zahl suchen, also von „00“ bis „99“.

Das Zeichen \d steht beispielsweise für eine Ziffer zwischen 0 und 9, wiederum das Zeichen \d{2} sucht nach einer zweistelligen Zahl.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Variablen werden aus dem Dokument ausgelesen und bereitgestellt

Wenn nun der reguläre Ausdruck in PaperOffice angewendet wird, so kommt als Endergebnis das Datum „Sep 20, 2019“ raus.

So kann jedes beliebige Datum aus einem Dokument ausgelesen werden, ohne dass wir den Ursprungswert gewusst haben. Diese Gruppen können ebenfalls überall anders eingesetzt und frei verschoben werden, um andere Datumsformate auszulesen.

Hierzu ein weiteres Beispiel:

PaperOffice Rechnung 2 mit Regex zu auslesen
Rechnungen mit verschiedenen Formaten können leicht ausgelesen werden

Das Datum fängt mit dem Tag an, danach folgt der Monat, bestehend aus Buchstaben, jedoch wird der erste Buchstabe ist immer großgeschrieben, daraufhin folgt ein Punkt, ein weiteres Leerzeichen und dann das Jahr.

Um dieses Datum zu extrahieren, kann der soeben beschriebene reguläre Ausdruck (REGEX) verwendet werden, mit einer zusätzlichen Vervollständigung, denn in dem zweiten Beispiel wird nach dem Monat der „Punkt“ angegeben.

Dieser kann mit folgender Zeichenkette angegeben werden: \.

Somit sieht der vollständige Ausdruck folgendermassen aus:

(0[1-9]|[12][0-9]|3[01])\s([A-Z][a-zä]{2})\.\s(20\d{2})

Sie können jederzeit Ihren erstellten Regex validieren, indem Sie auf der Seite https://regex101.com diesen zusammen mit Ihrem Text einfügen. Regex101 wird nicht nur prüfen, ob Ihr Regex stimmt, sondern Ihnen den regulären Ausdruck weitgehend erklären.

Und so können Sie die verschiedenen Zeichengruppen für alles verwenden.

Auftragsnummer auslesen dank REGEX

Als weiteres Beispiel möchten wir aus dem Dokument die Auftragsnummer auslesen.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Auftragsnummern werden aus dem Dokument extrahiert

Die Auftragsnummer auf unserem Dokument ist wie folgt formatiert:

Diese beginnt immer mit den Großbuchstaben XYB, danach folgt ein Bindestrich, gefolgt von 8 Ziffern, einem weiteren Bindestrich und zum Schluss 3 zufällige Großbuchstaben.

Beispiele der Auftragsnummern wären:

XYB-12316723-LSH

XYB-98456723-JRD

Um diese Auftragsnummer zu extrahieren, können wir folgenden regulären Ausdruck verwenden:

XYB-\d{8}-[A-Z]{3}

Lassen Sie uns den Ausdruck einzeln aufschlüsseln.

Zuerst suchen wir genau die ersten 3 Großbuchstaben mit dem Strich-Symbol: XYB-

XYB-\d{8}-[A-Z]{3}

Danach suchen wir nach 8 Ziffern gefolgt von einem weiteren Bindestrich: \d{8}-

XYB-\d{8}-[A-Z]{3}

Das Zeichen \d, wie bereits beschrieben, steht für eine Ziffer zwischen 0 und 9, wiederum das Zeichen \d{8} sucht nach achtstelliger Zahl.

Und zum Schluss suchen wir nach 3 beliebigen Großbuchstaben: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

So würde PaperOffice aus folgenden Auftragsnummern:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

die ersten zwei XYB-12316723-LSH und XYB-98456723-JRD

erkennen.

Wir haben zu diesem Beispiel einen Link auf Regex101 vorbereitet, bei welchem der soeben beschriebene reguläre Ausdruck mit 4 Beispielen aufgelistet wird. Sie sehen, dass nur zwei von den angegebenen Auftragsnummern unseren Anforderungen entsprechen.

Artikelnummern auslesen dank REGEX

Die Artikelnummer auf unserem Dokument ist wie folgt formatiert:

Diese beginnt immer mit zwei Großbuchstaben, danach folgt ein Bindestrich, gefolgt von 6 Ziffern.

PaperOffice Rechnung mit Regex zu auslesen
Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

Beispiele der Artikelnummern wären:

MS-863398

DS-452829

Um diese Artikelnummern zu extrahieren, können wir folgenden regulären Ausdruck verwenden:

[A-Z]{2}-\d{6}

PaperOffice kann Ihre Dokumente digitalisieren und in Ihre Systeme integrieren, um die Datenextraktion aus Rechnungen und anderen Unterlagen zu automatisieren, ohne unzählige Codes schreiben und anschließend pflegen zu müssen.

Kontaktieren Sie uns, um über Ihre Anwendungsfälle zu sprechen und mehr darüber zu erfahren, wie PaperOffice Ihnen helfen kann, im digitalen Zeitalter noch wettbewerbsfähiger zu werden.

Loslegen ist einfacher als Sie denken.

Haben Sie immer noch Bedenken darüber, dass Sie es nicht schaffen? Lesen Sie doch Fallstudien unserer Kunden über die PaperOffice Integration in Ihr Geschäftsleben und überzeugen sich selbst über die Einfachheit oder beantragen Sie ganz einfach eine Testinstallation.

FAQs

Zum Abschluss beantworten wir noch ein paar häufige Fragen zum Thema "Verwenden regulärer Ausdrücke REGEX für automatisierte Datenerfassung und -extraktion (Teil 2) ":

Für wen ist ein papierloses Büro geeignet?

Die schnelle und einfache Antwort auf die Frage ist: für jedes Unternehmen. Von einem papierlosen Büro profitieren alle Unternehmensbranchen und -größen, von KMUs über Start-ups bis hin zu großen Unternehmen. Besonders wertvoll ist die Umstellung aber für kleine und mittelständische Unternehmen: Durch die Reduzierung von Bearbeitungsaufwänden und Kosten wird benötigtes Budget für weitere Wachstums-Booster frei.

Kann ich für mein papierloses Büro in der Firma einen Cloud-basierten DMS Provider verwenden?

Nein. Ein weiterer Faktor, welcher spätestens seit endgültigem Inkrafttreten der DSGVO im Jahr 2018 in aller Munde ist, ist der Datenschutz. DMS-Lösungen und DMS Software wird zur Verarbeitung, Verwaltung und Speicherung von Dokumenten genutzt, die oft sensible, personenbezogene Daten beinhalten. Bei Verstößen gegen die DSGVO sieht der Gesetzgeber hohe Bußgelder vor. 

Fazit

  • Vorteile rechtfertigen den Aufwand und Kosten

    Digital zu arbeiten und alte Dokument in das neue Zeitalter zu bringen wird die beste Schlüsselinvestition sein um unglaublich viele Zeit, Geld und Nerven zukünftig zu sparen.

  • Sie brauchen jemand der sich damit auskennt

    Sie brauchen keinen eigenen IT-Spezialisten um alle Vorteile der Digitalisierung zu nutzen.
    Was Sie brauchen ist der richtig Partner an Ihrer Seite, der durch seine Erfahrungen exakt das umsetzen kann was Sie benötigen. Vermeiden Sie Panikmacher und wählen Sie Teststellungen anstatt schicker PowerPoint Präsentationen ohne es wirklich getestet zu haben.

  • Die Hardware ist meistens schon vorhanden

    Erfahrungsgemäß hat nahezu jeder Betrieb, Firma und Unternehmen einen Großkopierer, der seine Möglichkeit nicht ausnutzt. Diese Gerät lieben Massenscans, sind Tolerant in Hinblick auf Büroklammern und können die Basis für den digitalen Start ohne Scanner-Investition sein.

  • Günstiger als erwartet mit dem richtigen DMS

    Vermeiden Sie Kostenfallen mit DMS / ECM Systemen bei welchen Sie den Herstellern gnadenlos ausgeliefert sind. Machen Sie keine Kompromisse was eigene Administrationsmöglichkeiten angeht wie z.B. Dokument selber einlernen und Einstellungen vornehmen. Wenn Sie Hilfe benötigen hilft Ihnen der Hersteller gerne weiter, aber bleiben Sie selbstständig und unabhängig.

  • Digital automatisieren ist die Zukunft

    Vorgänge laufen in Zukunft vollkommen identisch, aber voll automatisiert.
    Rechnung kommt rein? Der Workflow löst aus und alles geht seinem einmal definierten Weg.
    Alle 1000 Aktenordner durchsuchen? Kein Problem, denn Sie haben Ihr eigenes Google!

PaperOffice löst jedes Problem: Garantiert.

Fallstudie

Der digitale Weg des Patriarchats mit PaperOffice DMS

„Wir sind begeistert nach anderthalb Jahren Arbeit und dennoch haben wir dieses fantastische Meisterwerk noch nicht voll ausgeschöpft.“

Pedro Silva
Verwaltungsmitarbeiter des Patriarchats von Lissabon