Realitzeu la gestió de documents intel·ligent de forma correcta
Suggeriment professional
Captura de dades automatitzada amb expressions regulars: com processar eficientment grans quantitats de dades utilitzant expressions regulars. La clau per a la captura de dades i extracció de dades automatitzades.Com extragui informació del meu document amb REGEX?
Exemples pràctics
A l'article actual, us mostrem com extreure automàticament qualsevol dada del document amb expressions regulars multi-element, com PaperOffice.
A continuació us presentem un document de mostra que conté una data específica. En aquest document, es tracta d'una factura. El format de la data al nostre document és el següent:
Mes, format per lletres, però sempre la primera lletra en majúscula, després un espai, després el dia, una coma i un altre espai i, finalment, l'any.
Per exemple: Sep 20, 2019 o Mär 05, 2022
Per extreure aquesta data, podem utilitzar l'expressió regular (REGEX) següent:
([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})
Anem a desglossar l'expressió en grups individuals. Aquests grups estan separats per parèntesis simples ().
En el primer grup, busquem les 3 lletres dels mesos: ([A-Z][a-zä]{2})
([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})
Extreure mes
- [A-Z] Aquesta cadena de caràcters significa que busquem una lletra majúscula d'A a Z. Per exemple, la lletra "S" de "Sept". Cal tenir en compte que és diferent entre majúscules i minúscules.
- [a-zä]{2} Aquesta cadena de caràcters significa que busquem dues lletres minúscules de a a z i també la "ä" (per al nom del mes, en alemany "März"). Seria el "ep" de "Sep" o el "är" de "Mär" en alemany.
A continuació, busquem un espai amb la següent cadena de caràcters: \s
([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})
Extreure dia
En el segon grup, busquem la indicació del dia en números: (0[1-9]|[12][0-9]|3[01])
([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})
La indicació del dia ha de ser diferent en tres indicacions. Com no sabem quina indicació apareixerà al document, pot ser el primer dia (01) o també l'últim dia (31) del mes, cal indicar-ho adequadament amb les diferents opcions. Aquestes opcions són separades pel caràcter "|". Exemple: (1|2|3) = 1 o 2 o 3.
Dins dels claudàtors, s'assemblen quin caràcter s'accepta. Múltiples claudàtors quadrats corresponen a múltiples caràcters. Per descriure múltiples caràcters amb una expressió, es col·loquen junts. Aleshores, la sequència proporcionada es compara amb el seu patró de l'esquerra a la dreta.
- 0[1-9] Aquesta cadena de caràcters significa que el número pot començar amb un "0", seguit d'un número de 1 a 9. Podem obtenir qualsevol número de l'01 a l'09.
Aquesta expressió busca un patró numèric que comenci amb zero. Si el vostre document normalment conté una data de "5 de març del 2022", és a dir, sense que hi hagi un zero davant del número "5", aquest zero s'omiteix a l'expressió.
- [12][0-9] Aquesta cadena de caràcters significa que el número pot començar amb un "1" o un "2", seguit de qualsevol número de 0 a 9. Com a resultat, pot sortir qualsevol número de l'10 al 29.
- 3[01] Aquesta cadena de caràcters significa que el número pot començar amb un "3", seguit pel "0" o el "1". Com a resultat, podem obtenir el 30 o el 31.
Després de definir les opcions per al dia, cal determinar l'expressió per a l'any.
Ara busquem la coma i l'espai: ,\s
([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})
Extreure any
En l'últim grup, busquem l'any: (20\d{2})
([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})
Comencem buscant qualsevol any, però sabem que serà ≥ 2000.
- 20 Aquesta cadena de caràcters significa que busquem qualsevol any començant exactament per 20.
- \d{2} Aquesta cadena de caràcters significa que busquem un possible número de dues xifres, és a dir, de "00" a "99".
Llegir el número de comanda amb REGEX
Com a exemple més, volem llegir el número de comanda del document.
El número de comanda al nostre document està format de la següent manera:
Sempre comença amb les majúscules XYB, a continuació hi ha un guió, seguit de 8 dígits, un altre guió i finalment 3 lletres majúscules aleatòries.
Exemples dels números de comanda:
XYB-12316723-LSH
XYB-98456723-JRD
Per extreure aquest número de comanda, podem utilitzar l'expressió regular següent:
XYB-\d{8}-[A-Z]{3}
Desglosem l'expressió un a un.
Primer busquem els primers 3 caràcters majúsculs amb el símbol del guió: XYB-
XYB-\d{8}-[A-Z]{3}
A continuació busquem 8 dígits seguits d'un altre guió: \d{8}-
XYB-\d{8}-[A-Z]{3}
El caràcter \d, com ja s'ha explicat, representa un dígit del 0 al 9, i \d{8} busca un nombre de 8 dígits.
I finalment busquem 3 lletres majúscules aleatòries: [A-Z]{3}
XYB-\d{8}-[A-Z]{3}
Així, PaperOffice reconeixerà els dos primers números de comanda, XYB-12316723-LSH i XYB-98456723-JRD, dels següents números de comanda:
XYB-12316723-LSH
XYB-98456723-JRD
XYB-975432671829
ZYB-12342176-ZHD
Hem preparat un enllaç a Regex101 amb aquest exemple, on es mostra l'expressió regular descrita anteriorment juntament amb 4 exemples. Veureu que només dos d'aquests números de comanda compleixen els nostres requisits.
Llegir números d'articles amb REGEX
El número de l'article al nostre document està format de la següent manera:
Comença sempre amb dues lletres majúscules, a continuació hi ha un guió, seguit de 6 dígits.
Exemples dels números d'articles:
MS-863398
DS-452829
Per extreure aquests números d'articles, podem utilitzar l'expressió regular següent:
[A-Z]{2}-\d{6}
PaperOffice pot digitalitzar els vostres documents i integrar-los als vostres sistemes per automatitzar l'extracció de dades de factures i altres documents, sense haver d'escriure ni mantenir una gran quantitat de codis.
Contacteu amb nosaltres per parlar dels vostres casos d'ús i aprendre més sobre com PaperOffice pot ajudar-vos a ser més competitius en l'era digital.
Començar és més fàcil del que pensau.
Tencaveu algun dubte que no pogueu fer-ho? Llegiu els casos d'èxit dels nostres clients sobre la integració de PaperOffice a les seves operacions empresarials i convenci-vos de la simplicitat o sol·liciteu una instal·lació de prova de forma senzilla.
FAQs
Finalment, respondem a algunes preguntes freqüents sobre el tema. "Utilitzeu expressions regulars REGEX per a la captura i extracció automàtica de dades (Part 2)":
Per a qui és adequada una oficina sense paper?
La resposta ràpida i senzilla a aquesta pregunta és: per a cada empresa. Totes les indústries i mides d'empreses, des de les petites i mitjanes empreses fins a les empreses grans, en beneficien d'una oficina sense paper. Però el canvi és especialment valuós per a les petites i mitjanes empreses: Amb la reducció de tasques de processament i costos, es lliura pressupost necessari per a altres potenciadors de creixement.
Puc utilitzar un proveïdor de DMS basat en el núvol per a la meva oficina sense paper a l'empresa?
No. Un altre factor que és amplament conegut des de l'entrada en vigor efectiva del RGPD el 2018 és la protecció de dades. Les solucions de DMS i programari de DMS s'utilitzen per a processar, gestionar i emmagatzemar documents que sovint contenen dades personals sensibles. En cas d'incompliment del RGPD, el legislador preveu elevades sancions.
Conclusió
Els avantatges justifiquen l'esforç i els costos
Treballar de manera digital i dur els documents antics a l'era moderna serà la millor inversió clau per estalviar molt temps, diners i nervis en el futur.
Necessiteu algú que sàpiga com fer-ho
No necessiteu un especialista informàtic propi per aprofitar tots els avantatges de la digitalització.
El que necessiteu és un bon soci a la vostra banda que, gràcies a la seva experiència, pugui implementar exactament el que necessiteu. Eviteu els alarmistes i opteu per provar, en lloc de belles presentacions de PowerPoint que mai no s'han provat realment.El material és sovint ja disponible
En general, gairebé tots els negocis i empreses tenen una fotocopiadora gran que no aprofiten. Aquests dispositius els encanten els escanejats massius, toleren les clips de paper i poden ser la base per començar la digitalització sense necessitat d'invertir en un escàner.
Més econòmic del que esperàveu amb el DMS adequat
Eviteu les trampes de costos amb els sistemes de DMS / ECM en què esteu totalment sotmesos als fabricants. No feu concessions en termes de possibilitats d'administració pròpies, com ara aprendre els documents per compte propi i realitzar els ajustos. Si necessiteu ajuda, el fabricant estarà encantat d'ajudar-vos, però seguiu sent independents i autònoms.
Automatitzar de manera digital és el futur
En el futur, els processos funcionaran de manera totalment automàtica i idèntica.
Rebeu una factura? El flux de treball s'activa i tot segueix el camí definit prèviament.
Cal cercar entre els 1000 arxivadors? Cap problema, perquè teniu el vostre propi cercador de Google!