Buletinul PaperOffice Insider
Buletinul PaperOffice Insider
Vrem să fim prieteni

Cele mai mari oferte de reducere posibile

Exclusivități insider

Upgradări bonus gratuite

Cele mai mari oferte de reducere posibile

Exclusivități insider

Upgradări bonus gratuite

Prietenie-încredere-cuvânt de onoare
Nu vom împărtăşi niciodată adresa dvs de email altora și fiecare email va conține un link de dezabonare cu un singur clic.

Procesați corect documentele inteligente


Sfaturi de profesionist

Înregistrarea automată a datelor cu ajutorul expresiilor regulate: cum să procesați eficient cantități mari de date utilizând expresii regulate.


Cheia înregistrării automatizate a datelor și extragerea datelor.
Articolul curent vă arată cum să utilizați expresiile regulate pentru a beneficia de prelucrarea automatizată a documentelor. Acest lucru este valabil în special pentru documentele din orice domeniu de activitate.Vom prezenta exemple exacte de expresii regulate și vom explica pas cu pas ce înseamnă acestea și cum le puteți utiliza.Aceasta vă permite să îmbunătățiți eficiența operațională, să reduceți erorile umane prin creșterea preciziei, să scădeți costurile curente, să mențineți integritatea datelor și să îmbunătățiți securitatea datelor.Articolul curent extinde prima parte despre prelucrarea inteligentă a documentelor, mergeți direct la articol.Extragerea anumitor elemente de date din documente poate fi o sarcină extrem de costisitoare și consumatoare de timp. Adesea, scanările documentelor sunt trimise la mari companii de externalizare a capturii de date, unde datele sunt introduse manual.Cu toate acestea, există diferite dezavantaje la acest abordaj, cum ar fi:- Securitatea documentelor poate fi compromisă- Se introduce o întârziere în fluxurile de lucru- Comparativ cu extracția automată, indexarea manuală este un proces lent- Indexarea manuală nu poate scala bine la proiecte mari- Indexarea manuală poate introduce erori în date- Dacă un document este modificat, întregul proces trebuie reluatLa fel cum și altele.Cu toate că scanarea s-a răspândit, o mare parte a tranzacțiilor de afaceri se bazează în continuare pe documente bazate pe hârtie. Se estimează că 85% dintre facturi sunt încă emise pe hârtie.În plus, există munți de hârtie existentă care trebuie depozitați în depozite uriașe!Ce este o expresie regulată?Expresiile regulate, cunoscute și sub numele de "Regex", sunt un instrument puternic pentru căutarea și manipularea textelor. Permit recunoașterea și modificarea unor modele complexe din text.O expresie regulată este o combinație de litere normale și metacaractere speciale care au funcții speciale.Expresiile regulate pot fi, de asemenea, utilizate pentru a înlocui sau manipula textul. De exemplu, o expresie regulată poate fi utilizată.Acestea sunt un instrument foarte puternic pentru procesarea textelor și automatizarea sarcinilor.Cum pot ajuta expresiile regulate în automatizarea unei companii?Creșterea numărului de documente digitale cu diferite tipuri, reguli de denumire diferite și lipsa unui sistem adecvat de căutare dificultă căutarea și extragerea informațiilor din documente, în special atunci când vine vorba de documente neclasificate, căutarea devine nespecifică și durează mult timp.Expresiile regulate (Regex) oferă o metodă rapidă și puternică de căutare, extragere și înlocuire a unor date specifice din documente. Expresiile regulate sunt practic un șir de caractere special utilizat pentru a descrie un model de căutare.Astfel, conținutul documentului este căutat și extras după un șir de caractere prestabilit.Expresiile regulate sunt o modalitate de a defini modele în informații folosind simboluri speciale.Metoda Regex este cea mai potrivită pentru documente în care pozițiile valorilor care trebuie extrase pot varia și șabloanele simple de document nu sunt suficiente.O listă de expresii simple se găsește pe pagina noastră de ajutor.Cum pot construi expresii regulate?Expresiile regulate pot fi construite în diferite moduri, în funcție de tipul de model căutat.Utilizați metacaractere precum ., *, +, ?, ^, $, [] și [a-z] pentru a reprezenta anumite tipuri de caractere sau modele.Folosiți părți opționale: utilizați semnul întrebării (?) sau asterisculul (*) pentru a face părți ale modelului opționale.Folosiți grupuri: utilizați paranteze rotunde pentru a grupa părți ale modelului și pentru a le trata ca o singură unitate.Este important de menționat că regulile pentru expresiile regulate pot varia de la un limbaj de programare la altul. Este important să citiți documentația instrumentelor utilizate.Expresiile regulate scrise pentru PaperOffice trebuie să fie compatibile cu ECMAScript și PCRE2.Pentru a înțelege mai ușor și mai clar acest proces, există și un videoclip pe YouTube despre "Automatizarea STOCĂRII documentelor/REGEX & Variabile/Procesarea automatizată a facturilor".

Cum extrag informații din documentul meu cu REGEX?

Exemple practice

În articolul de față vă vom arăta cum puteți extrage datele din document folosind expresii regulate complexe în PaperOffice și cum le puteți adăuga automat ca cuvinte cheie la document.

Avem un document de test care conține o dată specifică. Documentul în cauză este o factură. Formatul datei din document este următorul:

PaperOffice Rechnung mit Regex zu auslesen
Informationen automatisiert aus Rechnungen extrahieren

Luna, formată din litere, prima literă fiind întotdeauna majusculă, urmată de un spațiu, apoi ziua, urmată de o virgulă, alt spațiu și apoi anul.

De exemplu: Sep 20, 2019 sau Mär 05, 2022


Pentru a extrage această dată, putem folosi următoarea expresie regulată (REGEX):

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Să descompunem această expresie în grupuri mai mici. Aceste grupuri sunt separate de paranteze simple ().

În primul grup căutăm cele 3 litere pentru luna: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extragerea numelui lunii

  • [A-Z] Acest șir înseamnă că căutăm o literă mare de la A-Z. De exemplu litera „S” din „Sept”. Este important să rețineți că majusculele și minusculele sunt diferențiate.
  • [a-zä]{2} Acest șir înseamnă că căutăm două litere mici de la a-z sau ä (pentru numele lunii în limba germană, „März”). Aceasta poate fi „ep” din „Sep” sau „är” din „Mär”.

Apoi căutăm un spațiu folosind șirul: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extragerea zilei

În al doilea grup căutăm numele zilei în format numeric: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Numărul zilei trebuie descompus în trei seturi diferite. Având în vedere că nu știm ce formate de dată pot fi prezente în document, poate apărea prima zi (01) sau ultima zi (31) a lunii, trebuie să definească opțiuni diferite. Acestea sunt separate prin caracterul „|”. De exemplu, (1|2|3) = 1 sau 2 sau 3.

În paranteze pătrate se găsește o listă de caractere permise. Mai multe paranteze pătrate corespund mai multor caractere. Dacă un șir trebuie să descrie mai multe caractere, acestea trebuie unite. Elementele din text sunt comparate cu expresia în ordine de la stânga la dreapta.

Desigur, nu trebuie neapărat să fie listate toate numerele. În total, întregul șir dintre paranteze reprezintă doar un singur caracter.

  • 0[1-9] Acest șir înseamnă că numărul poate începe cu „0”, urmat de un număr între 1 și 9. Obținem astfel orice număr între 01 și 09.
  • Șirul caută un model de numere care începe cu zero. În cazul în care documentul dvs. conține de obicei o dată „5 Martie 2022”, fără zero în fața cifrei „5”, zero este omis în șir.

  • [12][0-9] Acest șir înseamnă că numărul poate începe cu „1” sau „2”, urmat de orice număr între 0 și 9. Rezultatul poate fi un număr oricât de mare între 10 și 29.
  • 3[01] Acest șir înseamnă că numărul poate începe cu „3”, urmat de „0” sau „1”. Rezultatul poate fi 30 sau 31.

După ce s-au definit opțiunile pentru zi, trebuie să definim expresia pentru an.

Acum căutăm virgula și spațiul: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Preluarea anului

În ultimul grup căutăm anul: (20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Începem căutarea din orice an posibil, dar știm că Anul va fi ≥ 2000.

  • 20 Acest șir înseamnă că căutăm un an oarecare, începând exact cu 20.
  • \d{2} Acest șir înseamnă că căutăm un număr cu două cifre, adică de la „00” la „99”.

Caracterul \d înseamnă, de exemplu, o cifră între 0 și 9, iar caracterul \d{2} înseamnă că căutăm un număr cu două cifre.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Variablen werden aus dem Dokument ausgelesen und bereitgestellt

Când expresia regulată este aplic

Citirea numărului de comandă prin REGEX

Ca exemplu suplimentar, dorim să citim numărul de comandă din document.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Auftragsnummern werden aus dem Dokument extrahiert

Numărul de comandă de pe documentul nostru are următorul format:

Acesta începe întotdeauna cu majusculele XYB, urmat de un cratim, apoi de 8 cifre, încă un cratim și, în final, 3 litere mari aleatorii.

Exemple de numere de comandă ar fi:

XYB-12316723-LSH

XYB-98456723-JRD

Pentru a extrage acest număr de comandă, putem utiliza urmatorul regex:

XYB-\d{8}-[A-Z]{3}

Hai să dezmembrăm expresia.

Mai întâi căutăm exact primele 3 majuscule cu semnul cratim: XYB-

XYB-\d{8}-[A-Z]{3}

Apoi căutăm 8 cifre urmate de încă un cratim: \d{8}-

XYB-\d{8}-[A-Z]{3}

Caracterul \d, aşa cum am descris deja, reprezintă o cifră între 0 și 9, iar \d{8} caută un număr cu opt cifre.

Și, în cele din urmă, căutăm 3 litere mari aleatorii: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Astfel, PaperOffice ar recunoaște primele două elemente, XYB-12316723-LSH și XYB-98456723-JRD, din aceste numere de comandă:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

Am pregătit un link la Regex101 pentru acest exemplu, unde este enumerată expresia regulată descrisă mai sus, împreună cu patru exemple. Veți vedea că doar două dintre numerele de comandă specificate îndeplinesc cerințele noastre.

Citirea numărului de articol prin REGEX

Numărul de articol de pe documentul nostru are următorul format:

Acesta începe întotdeauna cu două litere mari, urmate de un cratim, apoi de 6 cifre.

PaperOffice Rechnung mit Regex zu auslesen
Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

Exemple de numere de articol ar fi:

MS-863398

DS-452829

Pentru a extrage aceste numere de articol, putem utiliza următorul regex:

[A-Z]{2}-\d{6}

PaperOffice poate digitaliza documentele dumneavoastră și le poate integra în sistemul dumneavoastră pentru automatizarea extragerii datelor din facturi și alte documente, fără a trebui să scrieți și să mențineți nenumărate linii de cod.

Contactați-ne pentru a discuta despre cazurile voastre de utilizare și pentru a afla mai multe despre cum vă poate ajuta PaperOffice să vă mențineți competitiv în era digitală.

A începe este mai ușor decât credeți.

Aveți încă îndoieli că nu veți reuși? Citiți studiile de caz ale clienților noștri despre integrarea PaperOffice în mediul lor de afaceri și convingeți-vă singuri despre ușurință sau solicitați pur și simplu o instalare de testare.

FAQs

Pentru a finaliza, vom răspunde la câteva întrebări frecvente despre subiectul. "Utilizați expresii regulate REGEX pentru capturarea și extragerea automată a datelor (partea 2)":

Pentru cine este potrivită o birou fără hârtie?

Răspunsul rapid și simplu la această întrebare este: pentru orice companie. Toate industriile și dimensiunile companiilor beneficiază de un birou fără hârtie, de la IMM-uri și start-up-uri până la companii mari. În special, trecerea la un birou fără hârtie este valoroasă pentru companiile mici și mijlocii: prin reducerea eforturilor și costurilor de procesare, se eliberează bugetul necesar pentru stimularea creșterii.

Pot utiliza un furnizor de DMS bazat pe cloud pentru biroul meu fără hârtie în companie?

Nu. Un alt factor care a devenit tot mai important în ultimul timp, mai ales de la intrarea în vigoare a GDPR în 2018, este protecția datelor. Soluțiile și software-urile DMS sunt utilizate pentru procesarea, gestionarea și stocarea documentelor care conțin adesea date personale sensibile. Legislația prevede amenzi înalte pentru încălcarea GDPR.

Concluzie

  • Avantajele justifică efortul și costurile

    Lucrul în mediul digital și aducerea documentelor vechi în era nouă va fi cea mai bună investiție cheie pentru a economisi incredibil de mult timp, bani și nervi în viitor.

  • Ai nevoie de cineva care se pricepe

    Nu ai nevoie de un specialist IT propriu pentru a beneficia de toate avantajele digitalizării. Ceea ce ai nevoie este un partener adecvat la tine alături care să poată implementa exact ceea ce ai nevoie pe baza experienței sale. Evită agenții care provoacă panică și alege teste practice în locul prezentărilor PowerPoint frumoase, dar care nu au fost testate în realitate.

  • Echipamentul este deja în cea mai mare parte disponibil

    {Pentru că absolut toată lumea are în apropiereul său un aparat de fotocopiat mare, care nu își folosește întregul potențial. Aceste echipamente adoră scanările în masă, sunt tolerante în ceea ce privește agrafa și pot fi baza unui demaraj digital fără a necesita investiții în scaner.

  • Mai ieftin decât te-ai aștepta cu DMS adecvat

    Evitați capcanele de cost cu sistemele DMS / ECM unde sunteți la mila nemiloasă a producătorilor. Nu faceți compromisuri când vine vorba de posibilități de administrare proprii, cum ar fi instruirea propriilor documente și efectuarea setărilor. Dacă aveți nevoie de ajutor, producătorul vă va fi bucuros să vă ajute, dar rămâneți independenți și autonomi.

  • Automatizarea digitală este viitorul

    Procesele vor continua să fie identice în viitor, dar vor fi complet automatizate. Factura a sosit? Fluxul de lucru se declanșează și totul urmează calea definită anterior. Căutarea în toate cele 1000 de dosare? Nicio problemă, pentru că ai propriul tău Google!

PaperOffice rezolvă orice problemă: garantat.

Studiu de caz

Schimbarea digitală în industria grătarelor - gestionarea cu succes a documentelor

"În industria grătarelor, subiectul digitalizării devine din ce în ce mai vizibil. Acest lucru se aplică, de exemplu, notelor noastre de livrare, listelor de piese sau planurilor, desenelor și configuratorilor noștri. După introducerea PaperOffice DMS, efortul manual ar putea fi redus. Acum suntem pionieri ca producător de grătare digitale."

Dl Stephan Reichel
Director General al K60 Gitterrostsysteme GmbH & Co.KG