Usar expresións regulares REGEX para a recopilación e extracción automatizadas de datos (Parte 2)

No artigo atual, mostramos como você pode usar expressões regulares para aproveitar os benefícios do processamento automatizado de documentos. Isso é especialmente válido para documentos de empresas de qualquer setor.

Mostraremos exemplos específicos de expressões regulares e explicaremos passo a passo o que eles significam e como usá-los.

Dessa forma, você pode aumentar a eficiência operacional, reduzir erros humanos por meio de maior precisão, diminuir os custos atuais, preservar a integridade dos dados e melhorar a segurança dos dados.

O artigo atual expande a primeira parte sobre processamento inteligente de documentos, clique aqui para acessar o artigo diretamente.

Extrair determinados elementos de dados de documentos pode ser uma tarefa extremamente cara e demorada. Com frequência, digitalizações de documentos são enviadas para grandes empresas de captura de dados terceirizadas, onde os dados são inseridos manualmente.

No entanto, existem várias desvantagens nessa abordagem, como:

A segurança dos documentos pode ser comprometida
Uma demora é introduzida nos processos de fluxo de trabalho
Em comparação com a extração automatizada, a indexação manual é um processo lento
A indexação manual não pode ser dimensionada bem em projetos grandes
A indexação manual pode introduzir erros nos dados
Se um documento for alterado, todo o processo precisa ser reiniciado

E muitos outros.

Apesar da proliferação da digitalização, uma grande parte das transações comerciais ainda é baseada em documentos em papel. Estima-se que 85% das faturas ainda sejam emitidas em papel.

Além disso, há uma montanha de papel existente que precisa ser armazenada em grandes depósitos!

O que é uma expressão regular?

Expressões regulares, também conhecidas como "Regex", são uma poderosa ferramenta para busca e manipulação de texto. Elas permitem reconhecer e editar padrões complexos em texto.

Uma expressão regular consiste em uma combinação de letras normais e metacaracteres especiais que têm funções específicas.

As expressões regulares também podem ser usadas para substituir ou manipular texto. Por exemplo, uma expressão regular pode ser usada.

Eles são uma ferramenta muito poderosa para processamento de texto e automação de tarefas.

Como as expressões regulares podem ajudar na automação de uma empresa?

O aumento dos documentos digitais com diferentes tipos, regras de nomenclatura diferentes e a falta de um sistema de pesquisa adequado dificultam o processo de busca e extração de informações dos documentos de conteúdo específico, especialmente quando se trata de documentos não classificados, a pesquisa se torna imprecisa e demorada.

Expressões regulares (Regex) oferecem um método rápido e poderoso para procurar, extrair e substituir dados específicos em documentos. Expressões regulares são basicamente uma sequência de caracteres de texto especial que descreve um padrão de pesquisa.

Assim, o conteúdo do documento é pesquisado e extraído após uma sequência de caracteres especificada.Expressões regulares são uma maneira de definir padrões em informações usando símbolos especiais.

O método Regex é melhor para documentos nos quais as posições dos valores a serem extraídos podem variar e os modelos de documentos simples não funcionam bem.

Uma lista de expressões simples pode ser encontrada em nosso ComDesk.

Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

Como posso construir expressões regulares?

As expressões regulares podem ser construídas de diferentes maneiras, dependendo do tipo de padrão que está sendo procurado.

Usar metacaracteres como ., *, +, ?, ^, $, [] e [a-z] para representar tipos específicos de caracteres ou padrões.

Usar partes opcionais: Use o ponto de interrogação (?) ou asterisco (*) para tornar partes do padrão opcionais.

Usar grupos: Use parênteses para agrupar partes do padrão e tratá-las como uma única unidade.

É importante observar que as regras para expressões regulares podem variar de acordo com a linguagem de programação utilizada. Portanto, é importante ler a documentação das ferramentas utilizadas. As expressões regulares escritas para o PaperOffice devem ser compatíveis com ECMAScript e PCRE2.

Dica

Também há um vídeo no YouTube sobre o tema "Automated Document FILING / REGEX & Variables / Automating Invoice Processing" que explica esse processo de forma fácil e compreensível:

Como extraer información de mi documento con REGEX?

Ejemplos prácticos

En el artículo actual, le mostraremos cómo puede extraer cualquier dato del documento y agregarlo automáticamente como palabras clave al documento, utilizando expresiones regulares de múltiples elementos en PaperOffice.

A continuación, hemos creado un documento de muestra que tiene una fecha específica. En este documento, se trata de una factura. El patrón de fecha en nuestro documento está formateado de la siguiente manera:

PaperOffice Rechnung mit Regex zu auslesen

Informationen automatisiert aus Rechnungen extrahieren

Mes, compuesto por letras, pero la primera letra siempre está en mayúscula, seguido de un espacio, luego el día seguido de una coma, otro espacio y luego el año.

Por ejemplo: Sep 20, 2019 o Mär 05, 2022

Para extraer esta fecha, podemos usar la siguiente expresión regular (REGEX):

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Descompongamos la expresión en grupos separados por paréntesis simples ().

En el primer grupo buscamos las 3 letras del mes: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrayendo el mes

[A-Z] Esta cadena significa que estamos buscando una letra mayúscula de A-Z. Por ejemplo, la letra “S” de Sept. Tenga en cuenta que se distingue entre mayúsculas y minúsculas.
[a-zä]{2} Esta cadena significa que estamos buscando dos letras minúsculas de a-z y también la “ä” (para el nombre del mes en alemán “März”). Esto sería la ep de “Sep” o la är de “Mär” en alemán.

Luego buscamos un espacio en blanco con la siguiente cadena: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrayendo el día

En el segundo grupo buscamos el número del día: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

La indicación del día debe dividirse en tres instrucciones diferentes.
Como no sabemos qué fecha puede haber en el documento, puede ser el primer día (01) o incluso el último día (31) del mes, por lo que deben especificarse diferentes opciones según corresponda.
Estas se separan con el símbolo “|”.
Ejemplo: (1|2|3) = 1 o 2 o 3.

Dentro de los corchetes, hay una lista de caracteres permitidos. Varios corchetes cuadrados corresponden a varios caracteres. Si una expresión describe varios caracteres, simplemente se colocan uno a continuación del otro. Luego, la entrada se compara con su expresión de izquierda a derecha.

Por supuesto, tampoco siempre deben indicarse todos los números. En total, la expresión entre paréntesis representa solo un carácter.

0[1-9] Esta cadena significa que el número puede comenzar con un “0”, seguido de un número del 1 al 9. Recibiremos cualquier número del 01 al 09.

La cadena busca un patrón de número que comience con un cero. Si su documento normalmente contiene una indicación de fecha “5. März 2022”, es decir, sin el número “0” antes del número “5”, se eliminará el “0” en la cadena.

[12][0-9] Esta cadena significa que el número puede comenzar con un “1” o un “2”, seguido de cualquier número del 0 al 9. Como resultado, puede haber cualquier número del 10 al 29.

3[01] Esta cadena significa que el número puede comenzar con un “3”, seguido de un “0” o un “1”. Como resultado, podría ser 30 o 31.

Después de definir las opciones para el día, debemos especificar la expresión para el año.

Luego buscamos la coma y el espacio en blanco: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrayendo el año

En el último grupo buscamos el año: (20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Comenzamos buscando cualquier número de año, pero sabemos que será ≥ 2000.

20 Esta cadena significa que buscamos cualquier número de año que comience exactamente con 20.

\d{2} Esta cadena significa que buscamos un posible número de dos dígitos, es decir, de "00" a "99".

El símbolo \d, por ejemplo, representa un dígito del 0 al 9, nuevamente, el símbolo \d{2} busca un número de dos dígitos.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt

Si ahora se aplica la expresión regular en PaperOffice, el resultado final es la fecha "Sep 20, 2019".

De esta manera, se puede extraer cualquier fecha de un documento, sin necesidad de conocer el valor original. Estos grupos también se pueden usar en cualquier otro lugar y mover libremente para extraer otros formatos de fecha.

Aquí hay otro ejemplo:

PaperOffice Rechnung 2 mit Regex zu auslesen

Rechnungen mit verschiedenen Formaten können leicht ausgelesen werden

La fecha comienza con el día, seguido del mes, compuesto por letras, pero la primera letra siempre está en mayúscula, luego hay un punto, otro espacio y luego el año.

Ler o número do pedido usando REGEX

Como exemplo adicional, queremos extrair o número do pedido do documento.

Auftragsnummern werden aus dem Dokument extrahiert

O número do pedido no nosso documento está formatado da seguinte forma:

Ele sempre começa com as letras maiúsculas XYB, seguido de um hífen, seguido por 8 dígitos, outro hífen e, finalmente, 3 letras maiúsculas aleatórias.

Exemplos de números de pedido seriam:

XYB-12316723-LSH

XYB-98456723-JRD

Para extrair esse número de pedido, podemos usar a seguinte expressão regular:

XYB-\d{8}-[A-Z]{3}

Vamos analisar a expressão passo a passo.

Primeiro, procuramos exatamente as primeiras 3 letras maiúsculas seguidas do hífen: XYB-

XYB-\d{8}-[A-Z]{3}

Em seguida, procuramos por 8 dígitos seguidos de outro hífen: \d{8}-

XYB-\d{8}-[A-Z]{3}

O caractere \d, como descrito anteriormente, representa um dígito de 0 a 9, então \d{8} procura por um número com 8 dígitos.

E por fim, procuramos por 3 letras maiúsculas aleatórias: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Dessa forma, o PaperOffice reconheceria os dois primeiros números de pedido XYB-12316723-LSH e XYB-98456723-JRD a partir dos seguintes números de pedido:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

Preparamos um link para Regex101 para este exemplo, onde a expressão regular descrita acima é listada com 4 exemplos. Você verá que apenas dois dos números de pedido fornecidos atendem aos nossos requisitos.

Ler números de artigos usando REGEX

O número do artigo no nosso documento está formatado da seguinte forma:

Ele sempre começa com duas letras maiúsculas, seguido de um hífen, seguido de 6 dígitos.

Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

Exemplos de números de artigos seriam:

MS-863398

DS-452829

Para extrair esses números de artigos, podemos usar a seguinte expressão regular:

[A-Z]{2}-\d{6}

O PaperOffice pode digitalizar seus documentos e integrá-los aos seus sistemas para automatizar a extração de dados de faturas e outros documentos, sem ter que escrever e manter inúmeros códigos.

Contate-nos para discutir seus casos de uso e saber mais sobre como o PaperOffice pode ajudá-lo a se manter competitivo na era digital.

Começar é mais fácil do que você imagina.

Ainda tem dúvidas se você vai conseguir? Confira estudos de caso de nossos clientes sobre a integração do PaperOffice em seus negócios e veja com seus próprios olhos o quão simples é, ou solicite facilmente uma instalação de teste.

Usar expresións regulares REGEX para a recopilación e extracción automatizadas de datos (Parte 2)

O que é uma expressão regular?

Como as expressões regulares podem ajudar na automação de uma empresa?

Como posso construir expressões regulares?

Como extraer información de mi documento con REGEX?

Ejemplos prácticos

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrayendo el mes

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrayendo el día

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrayendo el año

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Ler o número do pedido usando REGEX

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Ler números de artigos usando REGEX

[A-Z]{2}-\d{6}

ERROR: LID-5754 missing

ERROR: LID-5761 missing

ERROR: LID-5758 missing

ERROR: LID-5797 missing

ERROR: LID-5791 missing

ERROR: LID-5785 missing

ERROR: LID-5790 missing

ERROR: LID-5780 missing

ERROR: LID-5758 missing

ERROR: LID-5775 missing

ERROR: LID-6029 missing

ERROR: LID-5764 missing

ERROR: LID-5801 missing

ERROR: LID-5768 missing