Insider News Magazine o PaperOffice
Insider News Magazine o PaperOffice
Chceme být přátelé

Nejvyšší možné nabídky slev

Exkluzivní interní zprávy

Bezplatné bonusové aktualizace

Nejvyšší možné nabídky slev

Exkluzivní interní zprávy

Bezplatné bonusové aktualizace

Přátelství Důvěra Ehonorní slovo
Nikdy nebudeme poskytovat vaši e-mailovou adresu nikomu jinému a každý e-mail obsahuje odkaz na jedno kliknutí k zrušení odběru.

Správné provádění inteligentního zpracování dokumentů


Profesionální tip

Automatizovaný sběr dat s pomocí regulárních výrazů: Jak efektivně zpracovávat velká množství dat pomocí regulárních výrazů.


Klíč k automatizovanému sběru dat a extrakci dat.

V aktuálním článku vám ukážeme, jak můžete využívat regulární výrazy pro automatizované zpracování dokumentů. To platí zejména pro dokumenty firem všech odvětví.

Ukážeme vám konkrétní příklady regulárních výrazů a vysvětlíme krok za krokem, co znamenají a jak je můžete použít.

Tím můžete zvýšit efektivitu vaší firmy, snížit lidské chyby díky větší přesnosti, snížit současné náklady, udržet integritu dat a zlepšit zabezpečení dat.

Aktuální článek rozšiřuje první část o inteligentní zpracování dokumentů, sem se dostanete přímo k článku.

Vytahování určitých prvků dat z dokumentů může být velmi drahý a časově náročný úkol. Často jsou skeny dokumentů posílány velkým outsourcingovým firmám pro zpracování dat, kde jsou údaje ručně zadávány.

Existuje však několik nevýhod tohoto přístupu, například:

  • Za nebezpečí jsou vystavena bezpečnost dokumentů
  • Je zavedeno zpoždění ve workflow procesech
  • Manuální indexace je pomalý proces ve srovnání s automatizovaným získáváním dat
  • Manuální indexace není dobře škálovatelná pro velké projekty
  • Manuální indexace může způsobit chyby v datech
  • Pokud dojde ke změně dokumentu, je celý proces potřeba provést znovu

A mnoho dalších.

Přestože se skenování rozšířilo, stále se velká část obchodních transakcí opírá o papírové dokumenty. Odhaduje se, že 85 % faktur je stále vyhotovováno na papíře.

Mimo to existuje hromada stávajícího papíru, kterou je třeba skladovat ve velkých skladech!

Co je regulární výraz?

Regulární výrazy, také známé jako "regex", jsou mocným nástrojem pro vyhledávání a manipulaci s textem. Umožňují vyhledávání a úpravu složitých vzorců v textech.

Regulární výraz se skládá z kombinace běžných písmen a speciálních metaznaků, které mají speciální funkce.

Regulární výrazy také mohou být použity k nahrazení nebo úpravě textu. Například regulární výraz může být použit ke zjištění a nahrazení všech výskytů slova "pes" za slovo "kočka".

Jsou to mocné nástroje pro zpracování textu a automatizaci úkolů.

Jak mohou regulární výrazy pomoci automatizaci firemních procesů?

Zvýšení počtu digitálních dokumentů různých typů s různými pravidly pojmenování a nedostatečným systémem pro vyhledávání ztěžuje proces vyhledávání a získávání informací z dokumentů o určitém obsahu, zejména pokud se jedná o neklasifikované dokumenty, vyhledávání je nepřesné a trvá dlouho.

Regulární výrazy (regex) poskytují rychlou a výkonnou metodu pro vyhledávání, extrakci a nahrazení určitých dat v dokumentech. Regulární výrazy jsou v podstatě speciální řetězec znaků, který popisuje vyhledávací vzor.

Tím se dokumentový obsah vyhledává a získává na základě zadaného řetězce znaků.Regulární výrazy jsou způsob definoval nějaký (hledaný) vzor pomocí speciálních symbolů.

Metoda Regex je nejvhodnější pro dokumenty, u kterých mohou být polohy hodnot, které je třeba získat, variabilní, a jednoduché šablony dokumentů nelze použít.

Seznam jednoduchých výrazů najdete v našem ComDesk.

PaperOffice Regex Beispielsammlung
Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

Jak mohu sestavit regulární výrazy?

Regulární výrazy lze sestavit různými způsoby, v závislosti na tom, jaký druh vzoru se hledá.

Pro vyhledávání a manipulaci s textem jsou použity metaznaky, jako je ., *, +, ?, ^, $, [] a [a-z], které představují určité druhy znaků nebo vzory.

Volitelné části: Použijte otazník (?) nebo hvězdičku (*), abyste části vzoru učinili volitelnými.

Použití skupin: Použijte kulaté závorky k seskupení částí vzoru a zacházení s nimi jako s jednotkou.

Důležité je si uvědomit, že pravidla pro regulární výrazy se mohou lišit v závislosti na programovacím jazyků. Je tedy důležité číst dokumentace používaných nástrojů. Regulární výrazy napsané pro PaperOffice musí být kompatibilní s ECMAScript a PCRE2.

Tip

K tématu "Automatizované ULOŽIŠTĚ dokumentů / REGEX a proměnné / automatizace zpracování faktur" je také dostupné video na YouTube, které tento postup snadno a srozumitelně vysvětluje.

Jak extrahovat informace z mého dokumentu pomocí REGEX?

Příklady z praxe

V tomto článku vám ukážeme, jak pomocí víceprvkových regulárních výrazů v PaperOffice extrahovat libovolná data z dokumentu a automaticky je uložit jako meta informace k dokumentu.

Níže jsme vytvořili vzorový dokument, který obsahuje specifické datum. V tomto dokumentu se jedná o fakturu. Vzor data v našem dokumentu je formátováno takto:

PaperOffice Rechnung mit Regex zu auslesen
Informationen automatisiert aus Rechnungen extrahieren

Měsíc, složený z písmen, přičemž první písmeno je vždy velké, následuje mezera, poté den následovaný čárkou, další mezera a pak rok.

Například: Sep 20, 2019 nebo Mär 05, 2022


Abyste toto datum extrahovali, můžete použít následující regulární výraz (REGEX):

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Převedeme tento výraz na jednotlivé skupiny. Tyto skupiny jsou odděleny jednoduchými závorkami ().

Ve skupině číslo jedna hledáme po třech písmenech měsíce: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrahovat měsíc

  • [A-Z] Tato řetězec znamená, že hledáme velké písmeno od A do Z. Například písmeno „S“ ve slově Sept. Je důležité si uvědomit, že velká a malá písmena jsou rozlišována.
  • [a-zä]{2} Tato řetězec znamená, že hledáme dvě malá písmena od a do z a také písmeno ä (pro měsíční název v německém jazyce „März“). Například ep z „Sep“ nebo är z německého „Mär“.

Dále hledáme mezeru s následujícím řetězcem: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrahovat den

Ve druhé skupině hledáme číslicové označení dne: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Číslové označení dne musí být odděleno třemi různými instrukcemi.
Protože nevíme, jaké číslové označení měsíce se může v dokumentu objevit, může to být první den (01) nebo poslední den (31) měsíce, musíme definovat různé možnosti.
Tyto možnosti jsou odděleny pomocí znaku „|“.
Příklad: (1|2|3) = 1 nebo 2 nebo 3.

V hranaté závorce následuje seznam povolených znaků. Více hranatých závorek znamená více znaků.
Pokud má výraz popisovat více znaků, jednoduše je za sebe připojíme. Porovnávání začíná zleva do prava.

Samozřejmě také nemusíte vždy uvést všechna čísla. Celý vymezený výraz však odpovídá pouze jednomu znaku.

  • 0[1-9] Tento řetězec znamená, že číslo může začít číslicí 0, následovanou číslicí od 1 do 9. Takže dostaneme jakékoliv číslo od 01 do 09.
  • Tento řetězec vyhledává vzor čísel, který začíná nulou. Pokud váš dokument obvykle obsahuje data ve formátu „5. března 2022“ (tedy bez nuly před číslem „5“), vynecháme nulu v řetězci.

  • [12][0-9] Tento řetězec znamená, že číslo může začínat číslem 1 nebo 2, následovaným libovolnou číslicí od 0 do 9. Výsledkem může být libovolné číslo od 10 do 29.
  • 3[01] Tento řetězec znamená, že číslo může začínat číslem 3, následované číslem 0 nebo 1. Výsledkem může být jak 30, tak 31.

Po definování možností pro den by měl být výraz pro rok určen.

Nyní hledáme čárku a mezerník: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Přečtěte si číslo zakázky pomocí REGEX

Jako další příklad chceme z dokumentu přečíst číslo zakázky.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Auftragsnummern werden aus dem Dokument extrahiert

Číslo zakázky na našem dokumentu je formátováno následovně:

Začíná vždy velkými písmeny XYB, za tím následuje pomlčka, poté následuje 8 číslic, další pomlčka a nakonec 3 náhodná velká písmena.

Příklady čísel zakázek by byly:

XYB-12316723-LSH

XYB-98456723-JRD

Abychom toto číslo zakázky extrahovali, můžeme použít následující regulární výraz:

XYB-\d{8}-[A-Z]{3}

Dovolte nám přiblížit tento výraz.

Nejprve hledáme přesně prvních 3 velká písmena s pomlčkou: XYB-

XYB-\d{8}-[A-Z]{3}

Poté hledáme 8 číslic následovaných další pomlčkou: \d{8}-

XYB-\d{8}-[A-Z]{3}

Znak \d, jak již bylo popsáno, znamená číslici od 0 do 9, znak \d{8} znovu značí vyhledání osmimístného čísla.

A nakonec hledáme 3 libovolné velká písmena: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Tímto způsobem by PaperOffice rozpoznal z následujících čísel zakázek:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

první dvě XYB-12316723-LSH a XYB-98456723-JRD

.

K tomuto příkladu jsme připravili odkaz na Regex101, kde je uveden právě popsaný regulární výraz se 4 příklady. Uvidíte, že naše požadavkům vyhovují pouze dvě z uvedených čísel zakázek.

Přečtěte si čísla položek díky REGEX

Číslo položky na našem dokumentu je formátováno následovně:

Začíná vždy dvěma velkými písmeny, za tím následuje pomlčka a poté 6 číslic.

PaperOffice Rechnung mit Regex zu auslesen
Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

Příklady čísel položek by byly:

MS-863398

DS-452829

Abychom tato čísla položek extrahovali, můžeme použít následující regulární výraz:

[A-Z]{2}-\d{6}

PaperOffice může digitalizovat vaše dokumenty a integrovat je do vašich systémů, aby bylo možné automatizovat extrakci dat z faktur a dalších dokumentů, aniž by bylo nutné psát a udržovat velké množství kódů.

Kontaktujte nás, abychom se mohli porozumět vašim konkrétním případům, a zjistili, jak vám PaperOffice může pomoci stát se ještě konkurenceschopnější v digitální době.

Začít je snazší, než si myslíte.

Stále máte obavy, že se to nepodaří? Přečtěte si případové studie našich zákazníků o integraci PaperOffice do svého obchodního života a přesvědčte se sami o jednoduchosti nebo požádejte o testovací instalaci.

FAQs

Nakonec odpovídáme na několik dalších často kladených otázek na toto téma. "Použijte regulární výrazy REGEX pro automatizovaný sběr a extrakci dat (část 2)":

Komu je vhodný papír-free kancelář?

Rychlá a snadná odpověď na tuto otázku zní: pro každou firmu. Papír-free kancelář přináší výhody všem odvětvím a velikostem firem, od malých a středních podniků po start-upy a velké společnosti. Zejména pro malé a střední podniky je přechod velmi hodnotný: Snížení nákladů na zpracování a úspora rozpočtu pro další růstové impulsy.

Můžu použít pro svou papír-free kancelář v cloudové DMS-provědce ?

Ne. Dalším faktorem, který je aktuální zejména od roku 2018 s účinností GDPR, je ochrana osobních údajů. DMS-řešení a DMS software se používá k zpracování, řízení a ukládání dokumentů, které často obsahují citlivé osobní údaje. Porušení nařízení GDPR může pro porušitele znamenat vysoké pokuty.

Závěr

  • Výhody odůvodňují úsilí a náklady

    Práce digitálně a přeměna starých dokumentů do nové éry bude nejlepší klíčovou investicí do ušetření času, peněz a nervů v budoucnosti.

  • Potřebujete někoho, kdo se v tom vyzná

    Nepotřebujete vlastního IT specialistu, abyste využili všechny výhody digitalizace.
    Co potřebujete, je správný partner, který vám může pomocí své zkušenosti přesně to, co potřebujete. Vyhněte se panikářům a zvolte testování místo výstředních prezentací v PowerPointu, které jste opravdu neotestovali.

  • Hardware je obvykle již k dispozici

    Zkušenosti naznačují, že téměř každý podnik, společnost a firma má velkoplošný kopír, který nevyužívá svého potenciálu. Tyto zařízení milují hromadné skenování, jsou tolerantní vůči sponkám a mohou sloužit jako základ pro digitální start bez investice do skeneru.

  • Levnější, než se očekávalo, s pravým DMS

    Vyhněte se pastem nákladů u DMS / ECM systémů, ve kterých jste bezohledně závislí na výrobcích. Nedělejte kompromisy, pokud jde o vlastní správní možnosti, jako je samostatné vzdělávání dokumentů a nastavování. Pokud potřebujete pomoc, výrobce vám rád pomůže, ale zůstaňte nezávislí a samostatní.

  • Digitální automatizace je budoucností

    Procesy budou fungovat úplně stejně, ale plně jsou automatizované.
    Faktura přijde? Workflow je spuštěn a vše pokračuje podle předem definované cesty.
    Vyhledávat všech 1000 složek s dokumenty? Žádný problém, protože máte své vlastní Google!

PaperOffice řeší každý problém: Zaručeno.

Případová studie

Cesta k digitální radnici - digitalizace administrativy

"Snadná integrace a provoz PaperOffice DMS poskytly celkové řešení, které toto odvětví potřebovalo: minimalizovat spotřebu papíru, urychlit vyhledávací procesy, automatizovat přiřazení úředníkům a umožnit ukládání dat souvisejících s procesy."

Pan Carlos A. Garcia Manažer marketingu a komunikace