Utilitzeu expressions regulars REGEX per a la captura i extracció automàtica de dades (Part 2)
Dominar les expressions regulars: Una guia per crear expressions eficients i poderoses

Ofertes de descompte més altes possible.
Notícies exclusives internes
Actualitzacions de bonificació gratuïtes
Ofertes de descompte més altes possible.
Notícies exclusives internes
Actualitzacions de bonificació gratuïtes
Amistat Confiança Paraula d'honor
Mai donarem la teva adreça de correu electrònic a ningú altre i cada correu electrònic inclou un enllaç per donar-te de baixa amb un sol clic.
Suggeriment professional
Captura de dades automatitzada amb expressions regulars: com processar eficientment grans quantitats de dades utilitzant expressions regulars. La clau per a la captura de dades i extracció de dades automatitzades.A l'article actual, us mostrem com extreure automàticament qualsevol dada del document amb expressions regulars multi-element, com PaperOffice.
A continuació us presentem un document de mostra que conté una data específica. En aquest document, es tracta d'una factura. El format de la data al nostre document és el següent:
Mes, format per lletres, però sempre la primera lletra en majúscula, després un espai, després el dia, una coma i un altre espai i, finalment, l'any.
Per exemple: Sep 20, 2019 o Mär 05, 2022
Per extreure aquesta data, podem utilitzar l'expressió regular (REGEX) següent:
Anem a desglossar l'expressió en grups individuals. Aquests grups estan separats per parèntesis simples ().
En el primer grup, busquem les 3 lletres dels mesos: ([A-Z][a-zä]{2})
A continuació, busquem un espai amb la següent cadena de caràcters: \s
En el segon grup, busquem la indicació del dia en números: (0[1-9]|[12][0-9]|3[01])
La indicació del dia ha de ser diferent en tres indicacions. Com no sabem quina indicació apareixerà al document, pot ser el primer dia (01) o també l'últim dia (31) del mes, cal indicar-ho adequadament amb les diferents opcions. Aquestes opcions són separades pel caràcter "|". Exemple: (1|2|3) = 1 o 2 o 3.
Dins dels claudàtors, s'assemblen quin caràcter s'accepta. Múltiples claudàtors quadrats corresponen a múltiples caràcters. Per descriure múltiples caràcters amb una expressió, es col·loquen junts. Aleshores, la sequència proporcionada es compara amb el seu patró de l'esquerra a la dreta.
Aquesta expressió busca un patró numèric que comenci amb zero. Si el vostre document normalment conté una data de "5 de març del 2022", és a dir, sense que hi hagi un zero davant del número "5", aquest zero s'omiteix a l'expressió.
Després de definir les opcions per al dia, cal determinar l'expressió per a l'any.
Ara busquem la coma i l'espai: ,\s
En l'últim grup, busquem l'any: (20\d{2})
Comencem buscant qualsevol any, però sabem que serà ≥ 2000.
Com a exemple més, volem llegir el número de comanda del document.
El número de comanda al nostre document està format de la següent manera:
Sempre comença amb les majúscules XYB, a continuació hi ha un guió, seguit de 8 dígits, un altre guió i finalment 3 lletres majúscules aleatòries.
Exemples dels números de comanda:
XYB-12316723-LSH
XYB-98456723-JRD
Per extreure aquest número de comanda, podem utilitzar l'expressió regular següent:
Desglosem l'expressió un a un.
Primer busquem els primers 3 caràcters majúsculs amb el símbol del guió: XYB-
A continuació busquem 8 dígits seguits d'un altre guió: \d{8}-
El caràcter \d, com ja s'ha explicat, representa un dígit del 0 al 9, i \d{8} busca un nombre de 8 dígits.
I finalment busquem 3 lletres majúscules aleatòries: [A-Z]{3}
Així, PaperOffice reconeixerà els dos primers números de comanda, XYB-12316723-LSH i XYB-98456723-JRD, dels següents números de comanda:
XYB-12316723-LSH
XYB-98456723-JRD
XYB-975432671829
ZYB-12342176-ZHD
Hem preparat un enllaç a Regex101 amb aquest exemple, on es mostra l'expressió regular descrita anteriorment juntament amb 4 exemples. Veureu que només dos d'aquests números de comanda compleixen els nostres requisits.
El número de l'article al nostre document està format de la següent manera:
Comença sempre amb dues lletres majúscules, a continuació hi ha un guió, seguit de 6 dígits.
Exemples dels números d'articles:
MS-863398
DS-452829
Per extreure aquests números d'articles, podem utilitzar l'expressió regular següent:
PaperOffice pot digitalitzar els vostres documents i integrar-los als vostres sistemes per automatitzar l'extracció de dades de factures i altres documents, sense haver d'escriure ni mantenir una gran quantitat de codis.
Contacteu amb nosaltres per parlar dels vostres casos d'ús i aprendre més sobre com PaperOffice pot ajudar-vos a ser més competitius en l'era digital.
Començar és més fàcil del que pensau.
Tencaveu algun dubte que no pogueu fer-ho? Llegiu els casos d'èxit dels nostres clients sobre la integració de PaperOffice a les seves operacions empresarials i convenci-vos de la simplicitat o sol·liciteu una instal·lació de prova de forma senzilla.
Finalment, respondem a algunes preguntes freqüents sobre el tema. "Utilitzeu expressions regulars REGEX per a la captura i extracció automàtica de dades (Part 2)":
La resposta ràpida i senzilla a aquesta pregunta és: per a cada empresa. Totes les indústries i mides d'empreses, des de les petites i mitjanes empreses fins a les empreses grans, en beneficien d'una oficina sense paper. Però el canvi és especialment valuós per a les petites i mitjanes empreses: Amb la reducció de tasques de processament i costos, es lliura pressupost necessari per a altres potenciadors de creixement.
No. Un altre factor que és amplament conegut des de l'entrada en vigor efectiva del RGPD el 2018 és la protecció de dades. Les solucions de DMS i programari de DMS s'utilitzen per a processar, gestionar i emmagatzemar documents que sovint contenen dades personals sensibles. En cas d'incompliment del RGPD, el legislador preveu elevades sancions.
Treballar de manera digital i dur els documents antics a l'era moderna serà la millor inversió clau per estalviar molt temps, diners i nervis en el futur.
No necessiteu un especialista informàtic propi per aprofitar tots els avantatges de la digitalització.
El que necessiteu és un bon soci a la vostra banda que, gràcies a la seva experiència, pugui implementar exactament el que necessiteu. Eviteu els alarmistes i opteu per provar, en lloc de belles presentacions de PowerPoint que mai no s'han provat realment.
En general, gairebé tots els negocis i empreses tenen una fotocopiadora gran que no aprofiten. Aquests dispositius els encanten els escanejats massius, toleren les clips de paper i poden ser la base per començar la digitalització sense necessitat d'invertir en un escàner.
Eviteu les trampes de costos amb els sistemes de DMS / ECM en què esteu totalment sotmesos als fabricants. No feu concessions en termes de possibilitats d'administració pròpies, com ara aprendre els documents per compte propi i realitzar els ajustos. Si necessiteu ajuda, el fabricant estarà encantat d'ajudar-vos, però seguiu sent independents i autònoms.
En el futur, els processos funcionaran de manera totalment automàtica i idèntica.
Rebeu una factura? El flux de treball s'activa i tot segueix el camí definit prèviament.
Cal cercar entre els 1000 arxivadors? Cap problema, perquè teniu el vostre propi cercador de Google!
"La fàcil integració i funcionament de PaperOffice DMS va proporcionar la solució general que aquesta indústria necessitava: minimitzar el consum de paper, accelerar els processos de cerca, automatitzar l'assignació als empleats i permetre l'emmagatzematge de dades relacionades amb el procés".
Sr. Carlos A. García Responsable de Màrqueting i Comunicació