Použijte regulární výrazy REGEX pro automatizovaný sběr a extrakci dat (část 2)

V aktuálním článku vám ukážeme, jak můžete využívat regulární výrazy pro automatizované zpracování dokumentů. To platí zejména pro dokumenty firem všech odvětví.

Ukážeme vám konkrétní příklady regulárních výrazů a vysvětlíme krok za krokem, co znamenají a jak je můžete použít.

Tím můžete zvýšit efektivitu vaší firmy, snížit lidské chyby díky větší přesnosti, snížit současné náklady, udržet integritu dat a zlepšit zabezpečení dat.

Aktuální článek rozšiřuje první část o inteligentní zpracování dokumentů, sem se dostanete přímo k článku.

Vytahování určitých prvků dat z dokumentů může být velmi drahý a časově náročný úkol. Často jsou skeny dokumentů posílány velkým outsourcingovým firmám pro zpracování dat, kde jsou údaje ručně zadávány.

Existuje však několik nevýhod tohoto přístupu, například:

Za nebezpečí jsou vystavena bezpečnost dokumentů
Je zavedeno zpoždění ve workflow procesech
Manuální indexace je pomalý proces ve srovnání s automatizovaným získáváním dat
Manuální indexace není dobře škálovatelná pro velké projekty
Manuální indexace může způsobit chyby v datech
Pokud dojde ke změně dokumentu, je celý proces potřeba provést znovu

A mnoho dalších.

Přestože se skenování rozšířilo, stále se velká část obchodních transakcí opírá o papírové dokumenty. Odhaduje se, že 85 % faktur je stále vyhotovováno na papíře.

Mimo to existuje hromada stávajícího papíru, kterou je třeba skladovat ve velkých skladech!

Co je regulární výraz?

Regulární výrazy, také známé jako "regex", jsou mocným nástrojem pro vyhledávání a manipulaci s textem. Umožňují vyhledávání a úpravu složitých vzorců v textech.

Regulární výraz se skládá z kombinace běžných písmen a speciálních metaznaků, které mají speciální funkce.

Regulární výrazy také mohou být použity k nahrazení nebo úpravě textu. Například regulární výraz může být použit ke zjištění a nahrazení všech výskytů slova "pes" za slovo "kočka".

Jsou to mocné nástroje pro zpracování textu a automatizaci úkolů.

Jak mohou regulární výrazy pomoci automatizaci firemních procesů?

Zvýšení počtu digitálních dokumentů různých typů s různými pravidly pojmenování a nedostatečným systémem pro vyhledávání ztěžuje proces vyhledávání a získávání informací z dokumentů o určitém obsahu, zejména pokud se jedná o neklasifikované dokumenty, vyhledávání je nepřesné a trvá dlouho.

Regulární výrazy (regex) poskytují rychlou a výkonnou metodu pro vyhledávání, extrakci a nahrazení určitých dat v dokumentech. Regulární výrazy jsou v podstatě speciální řetězec znaků, který popisuje vyhledávací vzor.

Tím se dokumentový obsah vyhledává a získává na základě zadaného řetězce znaků.Regulární výrazy jsou způsob definoval nějaký (hledaný) vzor pomocí speciálních symbolů.

Metoda Regex je nejvhodnější pro dokumenty, u kterých mohou být polohy hodnot, které je třeba získat, variabilní, a jednoduché šablony dokumentů nelze použít.

Seznam jednoduchých výrazů najdete v našem ComDesk.

Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

Jak mohu sestavit regulární výrazy?

Regulární výrazy lze sestavit různými způsoby, v závislosti na tom, jaký druh vzoru se hledá.

Pro vyhledávání a manipulaci s textem jsou použity metaznaky, jako je ., *, +, ?, ^, $, [] a [a-z], které představují určité druhy znaků nebo vzory.

Volitelné části: Použijte otazník (?) nebo hvězdičku (*), abyste části vzoru učinili volitelnými.

Použití skupin: Použijte kulaté závorky k seskupení částí vzoru a zacházení s nimi jako s jednotkou.

Důležité je si uvědomit, že pravidla pro regulární výrazy se mohou lišit v závislosti na programovacím jazyků. Je tedy důležité číst dokumentace používaných nástrojů. Regulární výrazy napsané pro PaperOffice musí být kompatibilní s ECMAScript a PCRE2.

Tip

K tématu "Automatizované ULOŽIŠTĚ dokumentů / REGEX a proměnné / automatizace zpracování faktur" je také dostupné video na YouTube, které tento postup snadno a srozumitelně vysvětluje.

Jak extrahovat informace z mého dokumentu pomocí REGEX?

Příklady z praxe

V tomto článku vám ukážeme, jak pomocí víceprvkových regulárních výrazů v PaperOffice extrahovat libovolná data z dokumentu a automaticky je uložit jako meta informace k dokumentu.

Níže jsme vytvořili vzorový dokument, který obsahuje specifické datum. V tomto dokumentu se jedná o fakturu. Vzor data v našem dokumentu je formátováno takto:

PaperOffice Rechnung mit Regex zu auslesen

Informationen automatisiert aus Rechnungen extrahieren

Měsíc, složený z písmen, přičemž první písmeno je vždy velké, následuje mezera, poté den následovaný čárkou, další mezera a pak rok.

Například: Sep 20, 2019 nebo Mär 05, 2022

Abyste toto datum extrahovali, můžete použít následující regulární výraz (REGEX):

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Převedeme tento výraz na jednotlivé skupiny. Tyto skupiny jsou odděleny jednoduchými závorkami ().

Ve skupině číslo jedna hledáme po třech písmenech měsíce: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrahovat měsíc

[A-Z] Tato řetězec znamená, že hledáme velké písmeno od A do Z. Například písmeno „S“ ve slově Sept. Je důležité si uvědomit, že velká a malá písmena jsou rozlišována.
[a-zä]{2} Tato řetězec znamená, že hledáme dvě malá písmena od a do z a také písmeno ä (pro měsíční název v německém jazyce „März“). Například ep z „Sep“ nebo är z německého „Mär“.

Dále hledáme mezeru s následujícím řetězcem: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrahovat den

Ve druhé skupině hledáme číslicové označení dne: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Číslové označení dne musí být odděleno třemi různými instrukcemi.
Protože nevíme, jaké číslové označení měsíce se může v dokumentu objevit, může to být první den (01) nebo poslední den (31) měsíce, musíme definovat různé možnosti.
Tyto možnosti jsou odděleny pomocí znaku „|“.
Příklad: (1|2|3) = 1 nebo 2 nebo 3.

V hranaté závorce následuje seznam povolených znaků. Více hranatých závorek znamená více znaků.
Pokud má výraz popisovat více znaků, jednoduše je za sebe připojíme. Porovnávání začíná zleva do prava.

Samozřejmě také nemusíte vždy uvést všechna čísla. Celý vymezený výraz však odpovídá pouze jednomu znaku.

0[1-9] Tento řetězec znamená, že číslo může začít číslicí 0, následovanou číslicí od 1 do 9. Takže dostaneme jakékoliv číslo od 01 do 09.

Tento řetězec vyhledává vzor čísel, který začíná nulou. Pokud váš dokument obvykle obsahuje data ve formátu „5. března 2022“ (tedy bez nuly před číslem „5“), vynecháme nulu v řetězci.

[12][0-9] Tento řetězec znamená, že číslo může začínat číslem 1 nebo 2, následovaným libovolnou číslicí od 0 do 9. Výsledkem může být libovolné číslo od 10 do 29.

3[01] Tento řetězec znamená, že číslo může začínat číslem 3, následované číslem 0 nebo 1. Výsledkem může být jak 30, tak 31.

Po definování možností pro den by měl být výraz pro rok určen.

Nyní hledáme čárku a mezerník: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Přečtěte si číslo zakázky pomocí REGEX

Jako další příklad chceme z dokumentu přečíst číslo zakázky.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt

Auftragsnummern werden aus dem Dokument extrahiert

Číslo zakázky na našem dokumentu je formátováno následovně:

Začíná vždy velkými písmeny XYB, za tím následuje pomlčka, poté následuje 8 číslic, další pomlčka a nakonec 3 náhodná velká písmena.

Příklady čísel zakázek by byly:

XYB-12316723-LSH

XYB-98456723-JRD

Abychom toto číslo zakázky extrahovali, můžeme použít následující regulární výraz:

XYB-\d{8}-[A-Z]{3}

Dovolte nám přiblížit tento výraz.

Nejprve hledáme přesně prvních 3 velká písmena s pomlčkou: XYB-

XYB-\d{8}-[A-Z]{3}

Poté hledáme 8 číslic následovaných další pomlčkou: \d{8}-

XYB-\d{8}-[A-Z]{3}

Znak \d, jak již bylo popsáno, znamená číslici od 0 do 9, znak \d{8} znovu značí vyhledání osmimístného čísla.

A nakonec hledáme 3 libovolné velká písmena: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Tímto způsobem by PaperOffice rozpoznal z následujících čísel zakázek:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

první dvě XYB-12316723-LSH a XYB-98456723-JRD

K tomuto příkladu jsme připravili odkaz na Regex101, kde je uveden právě popsaný regulární výraz se 4 příklady. Uvidíte, že naše požadavkům vyhovují pouze dvě z uvedených čísel zakázek.

Přečtěte si čísla položek díky REGEX

Číslo položky na našem dokumentu je formátováno následovně:

Začíná vždy dvěma velkými písmeny, za tím následuje pomlčka a poté 6 číslic.

Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

Příklady čísel položek by byly:

MS-863398

DS-452829

Abychom tato čísla položek extrahovali, můžeme použít následující regulární výraz:

[A-Z]{2}-\d{6}

PaperOffice může digitalizovat vaše dokumenty a integrovat je do vašich systémů, aby bylo možné automatizovat extrakci dat z faktur a dalších dokumentů, aniž by bylo nutné psát a udržovat velké množství kódů.

Kontaktujte nás, abychom se mohli porozumět vašim konkrétním případům, a zjistili, jak vám PaperOffice může pomoci stát se ještě konkurenceschopnější v digitální době.

Začít je snazší, než si myslíte.

Stále máte obavy, že se to nepodaří? Přečtěte si případové studie našich zákazníků o integraci PaperOffice do svého obchodního života a přesvědčte se sami o jednoduchosti nebo požádejte o testovací instalaci.

Použijte regulární výrazy REGEX pro automatizovaný sběr a extrakci dat (část 2)

Co je regulární výraz?

Jak mohou regulární výrazy pomoci automatizaci firemních procesů?

Jak mohu sestavit regulární výrazy?

Jak extrahovat informace z mého dokumentu pomocí REGEX?

Příklady z praxe

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrahovat měsíc

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrahovat den

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Přečtěte si číslo zakázky pomocí REGEX

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Přečtěte si čísla položek díky REGEX

[A-Z]{2}-\d{6}

ERROR: LID-5754 missing

ERROR: LID-5761 missing

ERROR: LID-5758 missing

ERROR: LID-5797 missing

ERROR: LID-5791 missing

ERROR: LID-5785 missing

ERROR: LID-5790 missing

ERROR: LID-5780 missing

ERROR: LID-5758 missing

ERROR: LID-5775 missing

ERROR: LID-6029 missing

ERROR: LID-5764 missing

ERROR: LID-5801 missing

ERROR: LID-5768 missing