Použijte regulární výrazy REGEX pro automatizovaný sběr a extrakci dat (část 2)
Nejvyšší možné nabídky slev
Exkluzivní interní zprávy
Bezplatné bonusové aktualizace
Nejvyšší možné nabídky slev
Exkluzivní interní zprávy
Bezplatné bonusové aktualizace
Přátelství Důvěra Ehonorní slovo
Nikdy nebudeme poskytovat vaši e-mailovou adresu nikomu jinému a každý e-mail obsahuje odkaz na jedno kliknutí k zrušení odběru.
V aktuálním článku vám ukážeme, jak můžete využívat regulární výrazy pro automatizované zpracování dokumentů. To platí zejména pro dokumenty firem všech odvětví.
Ukážeme vám konkrétní příklady regulárních výrazů a vysvětlíme krok za krokem, co znamenají a jak je můžete použít.
Tím můžete zvýšit efektivitu vaší firmy, snížit lidské chyby díky větší přesnosti, snížit současné náklady, udržet integritu dat a zlepšit zabezpečení dat.
Aktuální článek rozšiřuje první část o inteligentní zpracování dokumentů, sem se dostanete přímo k článku.
Vytahování určitých prvků dat z dokumentů může být velmi drahý a časově náročný úkol. Často jsou skeny dokumentů posílány velkým outsourcingovým firmám pro zpracování dat, kde jsou údaje ručně zadávány.
Existuje však několik nevýhod tohoto přístupu, například:
A mnoho dalších.
Přestože se skenování rozšířilo, stále se velká část obchodních transakcí opírá o papírové dokumenty. Odhaduje se, že 85 % faktur je stále vyhotovováno na papíře.
Mimo to existuje hromada stávajícího papíru, kterou je třeba skladovat ve velkých skladech!
Regulární výrazy, také známé jako "regex", jsou mocným nástrojem pro vyhledávání a manipulaci s textem. Umožňují vyhledávání a úpravu složitých vzorců v textech.
Regulární výraz se skládá z kombinace běžných písmen a speciálních metaznaků, které mají speciální funkce.
Regulární výrazy také mohou být použity k nahrazení nebo úpravě textu. Například regulární výraz může být použit ke zjištění a nahrazení všech výskytů slova "pes" za slovo "kočka".
Jsou to mocné nástroje pro zpracování textu a automatizaci úkolů.
Zvýšení počtu digitálních dokumentů různých typů s různými pravidly pojmenování a nedostatečným systémem pro vyhledávání ztěžuje proces vyhledávání a získávání informací z dokumentů o určitém obsahu, zejména pokud se jedná o neklasifikované dokumenty, vyhledávání je nepřesné a trvá dlouho.
Tím se dokumentový obsah vyhledává a získává na základě zadaného řetězce znaků.Regulární výrazy jsou způsob definoval nějaký (hledaný) vzor pomocí speciálních symbolů.
Metoda Regex je nejvhodnější pro dokumenty, u kterých mohou být polohy hodnot, které je třeba získat, variabilní, a jednoduché šablony dokumentů nelze použít.
Seznam jednoduchých výrazů najdete v našem ComDesk.
Regulární výrazy lze sestavit různými způsoby, v závislosti na tom, jaký druh vzoru se hledá.
Pro vyhledávání a manipulaci s textem jsou použity metaznaky, jako je ., *, +, ?, ^, $, [] a [a-z], které představují určité druhy znaků nebo vzory.
Volitelné části: Použijte otazník (?) nebo hvězdičku (*), abyste části vzoru učinili volitelnými.
Použití skupin: Použijte kulaté závorky k seskupení částí vzoru a zacházení s nimi jako s jednotkou.
Důležité je si uvědomit, že pravidla pro regulární výrazy se mohou lišit v závislosti na programovacím jazyků. Je tedy důležité číst dokumentace používaných nástrojů. Regulární výrazy napsané pro PaperOffice musí být kompatibilní s ECMAScript a PCRE2.
Tip
K tématu "Automatizované ULOŽIŠTĚ dokumentů / REGEX a proměnné / automatizace zpracování faktur" je také dostupné video na YouTube, které tento postup snadno a srozumitelně vysvětluje.
V tomto článku vám ukážeme, jak pomocí víceprvkových regulárních výrazů v PaperOffice extrahovat libovolná data z dokumentu a automaticky je uložit jako meta informace k dokumentu.
Níže jsme vytvořili vzorový dokument, který obsahuje specifické datum. V tomto dokumentu se jedná o fakturu. Vzor data v našem dokumentu je formátováno takto:
Měsíc, složený z písmen, přičemž první písmeno je vždy velké, následuje mezera, poté den následovaný čárkou, další mezera a pak rok.
Například: Sep 20, 2019 nebo Mär 05, 2022
Abyste toto datum extrahovali, můžete použít následující regulární výraz (REGEX):
Převedeme tento výraz na jednotlivé skupiny. Tyto skupiny jsou odděleny jednoduchými závorkami ().
Ve skupině číslo jedna hledáme po třech písmenech měsíce: ([A-Z][a-zä]{2})
Dále hledáme mezeru s následujícím řetězcem: \s
Ve druhé skupině hledáme číslicové označení dne: (0[1-9]|[12][0-9]|3[01])
Číslové označení dne musí být odděleno třemi různými instrukcemi.
Protože nevíme, jaké číslové označení měsíce se může v dokumentu objevit, může to být první den (01) nebo poslední den (31) měsíce, musíme definovat různé možnosti.
Tyto možnosti jsou odděleny pomocí znaku „|“.
Příklad: (1|2|3) = 1 nebo 2 nebo 3.
V hranaté závorce následuje seznam povolených znaků. Více hranatých závorek znamená více znaků.
Pokud má výraz popisovat více znaků, jednoduše je za sebe připojíme. Porovnávání začíná zleva do prava.
Samozřejmě také nemusíte vždy uvést všechna čísla. Celý vymezený výraz však odpovídá pouze jednomu znaku.
Tento řetězec vyhledává vzor čísel, který začíná nulou. Pokud váš dokument obvykle obsahuje data ve formátu „5. března 2022“ (tedy bez nuly před číslem „5“), vynecháme nulu v řetězci.
Po definování možností pro den by měl být výraz pro rok určen.
Nyní hledáme čárku a mezerník: ,\s
Jako další příklad chceme z dokumentu přečíst číslo zakázky.
Číslo zakázky na našem dokumentu je formátováno následovně:
Začíná vždy velkými písmeny XYB, za tím následuje pomlčka, poté následuje 8 číslic, další pomlčka a nakonec 3 náhodná velká písmena.
Příklady čísel zakázek by byly:
XYB-12316723-LSH
XYB-98456723-JRD
Abychom toto číslo zakázky extrahovali, můžeme použít následující regulární výraz:
Dovolte nám přiblížit tento výraz.
Nejprve hledáme přesně prvních 3 velká písmena s pomlčkou: XYB-
Poté hledáme 8 číslic následovaných další pomlčkou: \d{8}-
Znak \d, jak již bylo popsáno, znamená číslici od 0 do 9, znak \d{8} znovu značí vyhledání osmimístného čísla.
A nakonec hledáme 3 libovolné velká písmena: [A-Z]{3}
Tímto způsobem by PaperOffice rozpoznal z následujících čísel zakázek:
XYB-12316723-LSH
XYB-98456723-JRD
XYB-975432671829
ZYB-12342176-ZHD
první dvě XYB-12316723-LSH a XYB-98456723-JRD
.
K tomuto příkladu jsme připravili odkaz na Regex101, kde je uveden právě popsaný regulární výraz se 4 příklady. Uvidíte, že naše požadavkům vyhovují pouze dvě z uvedených čísel zakázek.
Číslo položky na našem dokumentu je formátováno následovně:
Začíná vždy dvěma velkými písmeny, za tím následuje pomlčka a poté 6 číslic.
Příklady čísel položek by byly:
MS-863398
DS-452829
Abychom tato čísla položek extrahovali, můžeme použít následující regulární výraz:
PaperOffice může digitalizovat vaše dokumenty a integrovat je do vašich systémů, aby bylo možné automatizovat extrakci dat z faktur a dalších dokumentů, aniž by bylo nutné psát a udržovat velké množství kódů.
Kontaktujte nás, abychom se mohli porozumět vašim konkrétním případům, a zjistili, jak vám PaperOffice může pomoci stát se ještě konkurenceschopnější v digitální době.
Začít je snazší, než si myslíte.
Stále máte obavy, že se to nepodaří? Přečtěte si případové studie našich zákazníků o integraci PaperOffice do svého obchodního života a přesvědčte se sami o jednoduchosti nebo požádejte o testovací instalaci.
ERROR: LID-5759 missing
ERROR: LID-6036 missing
ERROR: LID-6035 missing
ERROR: LID-5763 missing
ERROR: LID-6039 missing
ERROR: LID-6035 missing
ERROR: LID-5756 missing
ERROR: LID-6042 missing
ERROR: LID-5803 missing
ERROR: LID-5793 missing
ERROR: LID-6069 missing
ERROR: LID-6070 missing
ERROR: LID-5787 missing
ERROR: LID-6072 missing
ERROR: LID-6035 missing
ERROR: LID-5789 missing
ERROR: LID-6077 missing
ERROR: LID-6070 missing
ERROR: LID-6074 missing
ERROR: LID-5771 missing
ERROR: LID-6075 missing
ERROR: LID-6035 missing
ERROR: LID-5777 missing
ERROR: LID-5759 missing
ERROR: LID-5763 missing
ERROR: LID-5800 missing
ERROR: LID-5769 missing
ERROR: LID-6082 missing
ERROR: LID-6083 missing