Papirni ured Nieuwsbrief
Papirni ured Nieuwsbrief
Želimo biti prijatelji

Najviše moguće ponude popusta

Izvještaj isključivo za zaposlenike

Besplatna bonus nadogradnja

Najviše moguće ponude popusta

Izvještaj isključivo za zaposlenike

Besplatna bonus nadogradnja

Prijateljstvo Povjerenje Riječ časti
Nikada nećemo nikome dati vašu e-mail adresu i svaki e-mail sadrži poveznicu za jednostavno odjavljivanje.

Pametno izvršite obradu dokumenata


Profesionalni savjet

Automatsko prikupljanje podataka s pomoću regularnih izraza: Kako učinkovito obraditi velike količine podataka pomoću regularnih izraza.


Ključ za automatsko prikupljanje podataka i ekstrakciju podataka.

U trenutnom članku pokazat ćemo vam kako možete koristiti regularne izraze kako biste uživali u prednostima automatiziranog obrade dokumenata. Ovo posebno vrijedi za dokumente tvrtki u bilo kojoj industriji.

Prikazat ćemo vam točne primjere regularnih izraza i korak-po-korak objasniti što oni znače i kako ih možete koristiti.

Na taj način možete povećati operativnu učinkovitost, smanjiti ljudske pogreške povećanjem točnosti, smanjiti trenutne troškove, održati integritet podataka i poboljšati sigurnost podataka.

Trenutni članak nadopunjuje prvi dio o inteligentnoj obradi dokumenata, ovdje možete izravno pristupiti članku.

Izdvajanje određenih podatkovnih elemenata iz dokumenata može biti izuzetno skup i vremenski zahtjevan zadatak. Često se skenovi dokumenata šalju velikim vanjskim tvrtkama za unos podataka ručnim putem.

Međutim, postoji nekoliko nedostataka ovom pristupu, kao što su:

  • To može ugroziti sigurnost dokumenata
  • Uzrokuje kašnjenje u procesima rada
  • U usporedbi s automatiziranom ekstrakcijom, ručna indeksacija je spor proces
  • Ručna indeksacija nije dobro skalabilna kod velikih projekata
  • Ručna indeksacija može dovesti do grešaka u podacima
  • Ako se dokument promijeni, cijeli postupak mora započeti ispočetka

Kao i mnogi drugi.

Unatoč širenju skeniranja, velik dio poslovnih transakcija još uvijek se temelji na dokumentima na papiru. Procjenjuje se da se i dalje 85% računa izdaje na papiru.

Također, postoji planina papira koja se mora čuvati u ogromnim skladištima!

Što je regularni izraz?

Regulne izraze, također poznate kao "Regex", moćno je alat za pretraživanje i manipulaciju tekstom. Omogućavaju otkrivanje i uređivanje kompleksnih uzoraka na tekstovima.

Regularni izraz sastoji se od kombinacije običnih slova i posebnih metaznakova s posebnim funkcijama.

Regularni izrazi također se mogu koristiti za zamjenu ili manipulaciju teksta. Na primjer, regularni izraz može se koristiti.

To su vrlo moćan alat za obradu teksta i automatizaciju zadataka.

Kako regulne izraze mogu pomoći u automatizaciji tvrtke?

Povećanje digitalnih dokumenata s različitim vrstama, različitim pravilima nazivanja i nedovoljnim sustavom pretraživanja otežava proces pretraživanja i izdvajanja informacija iz dokumenata određenog sadržaja, posebno ako se radi o nepoznatim dokumentima, pretraživanje je neprecizno i traje dugo.

Regularni izrazi (Regex) pružaju brz i moćan način traženja, izdvajanja i zamjene specifičnih podataka u dokumentima. Regularni izrazi su u suštini poseban niz teksta koji opisuje uzorak pretrage.

Tako se pretražuje i izvlači sadržaj dokumenata prema određenom slijedu znakova.Regularni izrazi su način definiranja uzoraka u informacijama pomoću posebnih simbola.

Metoda Regex je najbolja za dokumente kod kojih se položaji izvlačenih vrijednosti mogu razlikovati, a jednostavni predlošci dokumenata ne uspijevaju.

Popis jednostavnih izraza možete pronaći u našem ComDesk-u.

PaperOffice Regex Beispielsammlung
Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

Kako mogu sastaviti regularne izraze?

Regularne izraze možete sastavljati na različite načine, ovisno o vrsti uzorka koji se traži.

Koristite metaznake kao što su ., *, +, ?, ^, $, [] i [a-z], da biste predstavili određene vrste znakova ili uzoraka.

Koristite opcionalne dijelove: koristite upitnik (?) ili zvjezdicu (*) da biste pojedine dijelove obrasca učinili opcionalnima.

Koristite grupe: koristite zagrade da biste grupirali dijelove obrasca i tretirali ih kao jedinicu.

Važno je napomenuti da pravila za regularne izraze mogu varirati ovisno o programskom jeziku. Stoga je važno pročitati dokumentaciju o korištenim alatima. RegEx napisani za PaperOffice moraju biti kompatibilni s ECMAScript i PCRE2.

Savjet

Na temu "Automatizirano ARHIVIRANJE dokumenata / REGEX i varijable / Automatizirano obraditi račune" također postoji video na YouTubeu koji na jednostavan i razumljiv način objašnjava taj postupak:

Sadržaj

Kako izvući informacije iz svog dokumenta pomoću REGEX-a?

Primjeri iz prakse

U ovom članku ćemo vam demonstrirati kako možete izvući sve podatke iz dokumenta i automatski ih postaviti kao oznake dokumenata koristeći više elementne regularne izraze u PaperOffice-u.

U nastavku smo stvorili uzorak dokumenta koji ima određeni datum. U ovom dokumentu se radi o računu. Obrazac datuma u našem dokumentu je formatiran na sljedeći način:

PaperOffice Rechnung mit Regex zu auslesen
Informationen automatisiert aus Rechnungen extrahieren

Mjesec, koji se sastoji od slova, ali prvo slovo je uvijek veliko, zatim slijedi razmak, zatim dan, nakon kojeg slijedi zarez, još jedan razmak i zatim godina.

Na primjer: Sep 20, 2019 ili Mär 05, 2022


Za izvlačenje ovog datuma možemo koristiti sljedeći regularni izraz (REGEX):

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Dozvolite da razbijemo izraz na pojedinačne grupe. Ove grupe su odvojene običnim zagradama ().

U prvom setu tražimo 3 slova mjeseca: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Izdvajanje naziva mjeseca

  • [A-Z] Ovaj niz znakova znači da tražimo veliko slovo A-Z. Na primjer, slovo „S“ u riječi Septembar. Imajte na umu da se velika i mala slova razlikuju.
  • [a-zä]{2} Ovaj niz znakova znači da tražimo dvije mala slova a-z i također ä (za naziv mjeseca na njemačkom - "März"). To bi bilo ep od „Sep“ ili är od njemačkog „Mär“.

Zatim tražimo razmak s sljedećim nizom znakova: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Izdvajanje dana

U drugom setu tražimo oznaku za dan brojkama: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Oznaka za dan mora biti podijeljena na tri različite upute.
Kako ne znamo koju oznaku dana možemo imati u dokumentu, može biti prvi dan (01) ili zadnji dan (31) u mjesecu, pa stoga moramo navesti različite mogućnosti.
One su odvojene znakom „|“.
Primjer: (1|2|3) = 1 ili 2 ili 3.

U uglatim zagradama dolazi niz dopuštenih znakova. Više nizova u uglatim zagradama znači više znakova.Ako izraz treba opisati više znakova, jednostavno ih povezujemo. Zatim se uneseni niz uspoređuje s izrazom s lijeva na desno.

Naravno, uvijek nije potrebno navesti sve brojeve. Ukupno zagradna cjelina predstavlja samo jedan znak.

  • 0[1-9] Ovaj niz znakova znači da broj može početi s „0“, a slijedi broj od 1 do 9. Dakle, dobivamo proizvoljan broj od 01 - 09.
  • Ovaj niz znakova traži uzorak brojeva koji započinje sa nulom. Ako je vaš dokument obično datum „5. ožujak 2022.“, dakle bez nule ispred broja 5, onda će se nula izuzeti iz niza znakova.

  • [12][0-9] Ovaj niz znakova znači da broj može početi s „1“ ili „2“, a slijedi proizvoljan broj od 0 do 9. Rezultat može biti proizvoljni broj od 10 - 29.
  • 3[01] Ovaj niz znakova znači da broj može početi s „3“, a slijedi „0“ ili „1“. Rezultat može biti 30 ili 31.

Nakon što su definirane opcije za dan, trebali bismo odrediti izraz za godinu.

Sada tražimo zarez i razmak: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Izdvajanje godine

U posljednjem setu tražimo godinu: (20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Počinjemo pretraživati simpbnu godinu, ali znamo da će biti ≥ 2000.

  • 20 Ovaj niz znakova znači da tražimo bilo koju godinu koja počinje s točno 20.

Izlistavanje broja narudžbe pomoću REGEX-a

Kao dodatan primjer želimo izvući broj narudžbe iz dokumenta.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Auftragsnummern werden aus dem Dokument extrahiert

Broj narudžbe na našem dokumentu je formatiran na sljedeći način:

On počinje uvijek velikim slovima XYB, zatim slijedi povlačenje, zatim 8 brojeva, još jedno povlačenje i na kraju 3 proizvoljna velika slova.

Primjeri brojeva narudžbi su:

XYB-12316723-LSH

XYB-98456723-JRD

Da bismo izvukli ovaj broj narudžbe, možemo koristiti sljedeći redovni izraz:

XYB-\d{8}-[A-Z]{3}

Idemo razdvojiti izraz na komponente.

Prvo tražimo prvih 3 velikih slova sa simbolom crte: XYB-

XYB-\d{8}-[A-Z]{3}

Zatim tražimo 8 brojeva, nakon toga ide još jedna crta:\d{8}-

XYB-\d{8}-[A-Z]{3}

Karakter \d, kao što smo već objasnili, predstavlja cifru od 0 do 9, a karakter \d{8} traži osmobrojan broj.

I na kraju tražimo 3 proizvoljna velika slova: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Zato će PaperOffice prepoznati prva dva broja narudžbe XYB-12316723-LSH i XYB-98456723-JRD iz ova četiri broja narudžbe:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

Ovog smo puta pripremili Regex101 link koji sadrži četiri primjera navedenog redovnog izraza. Vidjet ćete da samo dva od navedenih brojeva narudžbi zadovoljavaju naše zahtjeve.

Izlistavanje šifre artikla pomoću REGEX-a

Šifra artikla na našem dokumentu je formatirana na sljedeći način:

Ona uvijek započinje sa dva velika slova, zatim slijedi povlačenje, nakon toga ide 6 cifara.

PaperOffice Rechnung mit Regex zu auslesen
Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

Primjeri šifre artikla su:

MS-863398

DS-452829

Da bismo izdvojili ove šifre artikla, možemo koristiti sljedeći redovni izraz:

[A-Z]{2}-\d{6}

PaperOffice može digitalizirati vaše dokumente i integrirati ih u vaše sustave kako bi automatizirao izvlačenje podataka iz računa i ostalih dokumenata, bez potrebe da pišete i održavate nebrojene kodove.

Kontaktirajte nas da razgovaramo o vašim slučajevima upotrebe i da saznate više o tome kako PaperOffice može vam pomoći da ostanete konkurentni u digitalnom dobu.

Počnite je lakše nego što mislite.

Ako još uvijek imate brige da li ćete uspjeti, pročitajte studije slučaja naših korisnika o integraciji PaperOffice-a u vaše poslovni život ili jednostavno zatražite testnu instalaciju.

FAQs

Na kraju odgovaramo na još nekoliko često postavljanih pitanja na tu temu. "Koristite regularne izraze REGEX za automatsko prikupljanje i ekstrakciju podataka (Dio 2)":

Za koga je papirnica odgovarajuća?

Brzi i jednostavan odgovor na ovo pitanje je: za svaku tvrtku. Svi se sektori i veličine poduzeća, od malih i srednjih poduzeća do start-up tvrtki i velikih poduzeća, koriste papirnicu. Ali posebno je korisna promjena za mala i srednja poduzeća: Smanjenjem troškova i vremena za obradu oslobađaju se potrebni proračunska sredstva za daljnje poticanje rasta.

Mogu li za svoju tvrtku koristiti cloud baziranog DMS davatelja usluga za papirnicu?

Ne. Još jedan faktor koji je postao popularan nakon konačnog stupanja na snagu GDPR-a 2018. godine je zaštita podataka. DMS rješenja i DMS softver koriste se za obradu, upravljanje i pohranu dokumenata koji često sadrže osjetljive osobne podatke. Zakonodavac propisuje visoke novčane kazne za kršenje GDPR-a.

Zaključak

  • Povlastice opravdavaju napor i trošak

    Raditi digitalno i dovesti stara dokumenta u novo doba bit će najbolja ulaganja ključ za uštedu vremena, novca i živaca u budućnosti.

  • Trebate nekoga tko se razumije u to

    Nije vam potreban vlastiti IT stručnjak da biste iskoristili sve prednosti digitalizacije.
    Ono što vam treba je pravi partner koji, kroz svoja iskustva, može ostvariti ono što vam je potrebno. Izbjegavajte panika materijale i umjesto toga odaberite probne primjere umjesto sjajnih prezentacija s PowerPointom koje nitko nije testirao.

  • Većina hardvera je već dostupna

    Na temelju iskustava, gotovo svaka tvrtka ima veliki kopirni stroj koji ne koristi svu svoju mogućnost. Ti uređaji vole skeniranje velikih količina, toleriraju spajalice i mogu biti osnova za digitalni početak bez ulaganja u skener.

  • Jeftinije nego što se očekuje s pravim DMS-om

    Izbjegavajte zamke troškova s DMS/ECM sustavima u kojima ste bespomoćni prema proizvođačima. Ne pravite kompromise kad je riječ o vlastitim mogućnostima administracije, kao što su samostalno učenje dokumenata i postavljanje postavki. Ako vam je potrebna pomoć, proizvođač će vam rado pomoći, ali ostanite samostalni i neovisni.

  • Digitalna automatizacija je budućnost

    Postupci će se u budućnosti odvijati potpuno identično, ali potpuno automatizirano.
    Račun stiže? Workflow se pokreće i sve ide prema unaprijed definiranom putu.
    Pretraživanje svih 1000 fascikli? Nema problema, jer imate svoj vlastiti Google!

PaperOffice rješava svaki problem: Zagarantirano.

Studija slučaja

Kako IDC Construccion revolucionira upravljanje dokumentima u građevinskom sektoru uz pomoć PaperOffice DMS