Usando expressões regulares REGEX para coleta e extração automatizada de dados (Parte 2)

Através do processamento automatizado e leitura de dados com inteligência artificial (IA), um sistema de gestão de documentos como o PaperOffice DMS pode ajudá-lo a reduzir os custos do seu negócio em até 92% e aumentar a eficiência operacional.

No artigo atual, mostramos como você pode usar expressões regulares para aproveitar os benefícios do processamento automatizado de documentos. Isto se aplica especialmente a documentos de empresas de qualquer setor.

Mostramos exemplos exatos de expressões regulares e explicamos passo a passo o que elas significam e como você pode usá-las.

Desta forma, você pode aumentar sua eficiência operacional, reduzir erros humanos por meio de maior precisão, diminuir seus custos atuais, manter a integridade dos dados e melhorar a segurança dos dados.

O artigo atual estende a primeira parte sobre processamento inteligente de documentos, aqui leva você diretamente ao artigo.

Extrair elementos de dados específicos de documentos pode ser uma tarefa extremamente cara e demorada. Freqüentemente, as digitalizações de documentos são enviadas para grandes empresas terceirizadas de entrada de dados, onde os dados são inseridos manualmente.

No entanto, há diversas desvantagens nessa abordagem, como segue:

Isso pode comprometer a segurança dos documentos
Um atraso é introduzido nos processos de fluxo de trabalho
Comparada à extração automatizada, a indexação manual é um processo lento
A indexação manual não funciona bem em projetos grandes
A indexação manual pode introduzir erros nos dados
Se um documento for alterado, todo o processo recomeça

E muito mais.

Apesar da proliferação da digitalização, uma grande proporção das transações comerciais ainda se baseia em documentos em papel. Estima-se que 85% das faturas ainda sejam emitidas em papel.

Além disso, existem montanhas de papel que precisam ser armazenadas em enormes armazéns!

O que é uma expressão regular?

Expressões regulares, também conhecidas como "REGEX", são uma ferramenta poderosa para pesquisar e manipular texto. Eles possibilitam reconhecer e editar padrões complexos em texto.

Uma expressão regular consiste em uma combinação de letras normais e metacaracteres especiais que possuem funções especiais.

Expressões regulares também podem ser usadas para substituir ou manipular texto. Por exemplo, uma expressão regular pode ser usada.

Eles são uma ferramenta muito poderosa para processamento de texto e automação de tarefas.

Como as expressões regulares podem ajudar a automatizar um negócio?

O aumento de documentos digitais de diversos tipos, diferentes regras de nomenclatura e sem um sistema de busca suficiente complica o processo de busca e o processo de extração de informações documentais de determinado conteúdo, principalmente quando se trata de documentos não classificados, a busca se torna imprecisa e demora muito tempo.

Expressões regulares (regex) fornecem uma maneira rápida e poderosa de localizar, extrair e substituir dados específicos em documentos. Expressões regulares são essencialmente uma sequência de texto especial usada para descrever um padrão de pesquisa.

É assim que o conteúdo do documento é pesquisado e lido para uma sequência de caracteres especificada. Expressões regulares são uma forma de definir padrões em informações usando símbolos especiais.

O método Regex é mais adequado para documentos nos quais as posições dos valores a serem lidos podem variar e modelos de documentos simples não funcionam.

Você pode encontrar uma lista de expressões simples em nosso ComDesk.

Extensive expressions can be used from the PaperOffice Regex example collection

Como posso construir expressões regulares?

As expressões regulares podem ser montadas de diferentes maneiras, dependendo do tipo de padrão que está sendo pesquisado.

Use metacaracteres como ., *, +, ?, ^, $, [] e [a-z] para representar tipos específicos de caracteres ou padrões.

Use partes opcionais: use o ponto de interrogação (?) ou o asterisco (*) para tornar opcionais as partes do padrão.

Use grupos: use parênteses para agrupar partes do padrão e tratá-las como uma unidade.

É importante observar que as regras de expressões regulares podem variar de acordo com a linguagem de programação. Por isso é importante ler a documentação das ferramentas utilizadas. O RegEx escrito para PaperOffice deve ser compatível com ECMAScript e PCRE2.

Dica

Há também um vídeo no YouTube sobre o tema "Armazenamento automatizado de documentos, parte 3 / REGEX e variáveis/Gerenciamento de documentos para processamento de faturas ", que explica esse processo de maneira fácil e clara:

Como extraio informações do meu documento usando REGEX?

Exemplos práticos

No artigo atual, demonstramos como você pode extrair quaisquer dados do documento graças às expressões regulares de vários elementos no PaperOffice e armazená-los automaticamente como uma palavra-chave para o documento.

Criamos um documento de amostra abaixo com uma data específica. Este documento é uma fatura. O padrão de data em nosso documento está formatado assim:

Extract information automatically from invoices

Mês, composto por letras, mas a primeira letra é sempre maiúscula, seguida de espaço, depois o dia seguido de vírgula, outro espaço e depois o ano.

Por exemplo: 20 de setembro de 2019 ou 05 de março de 2022

Para extrair esta data podemos usar a seguinte expressão regular (REGEX):

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d {2 })

Vamos dividir a expressão em grupos individuais. Esses grupos são separados por colchetes simples ().

No primeiro grupo procuramos as letras dos 3 meses: ([A-Z][a-z]{2})

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Extrair mês

[A-Z] Esta string significa que estamos procurando uma letra maiúscula de A-Z. Por exemplo, a letra "S" de setembro. Deve-se observar que letras maiúsculas e minúsculas são tratadas separadamente.
[a-z]{2} Esta string significa que estamos procurando duas letras minúsculas de a-z. Seria o ep de "setembro".

Então procuramos um espaço com a seguinte string: \s

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Data de extração

No segundo grupo procure a designação do dia em números: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

O dia deve ser separado por três declarações diferentes.
Como não sabemos qual data pode aparecer no documento, pode ser o primeiro dia (01) ou o último dia (31) do mês, então você tem que ser nomeadas diferentes opções.
Eles são separados pelo caractere "|".
Exemplo: (1|2|3) = 1 ou 2 ou 3.

Uma lista de caracteres permitidos segue entre colchetes. Vários colchetes correspondem a vários caracteres. Se uma expressão descreve vários caracteres, estes são simplesmente anexados um após o outro. Em seguida, a entrada é comparada à sua expressão da esquerda para a direita.

É claro que nem todos os números precisam ser listados. No geral, entretanto, toda a expressão entre colchetes representa apenas um caractere.

0[1-9] Esta string significa que o número pode começar com um "0" seguido por um número de 1 a 9. Portanto, obtemos qualquer número de 01 a 09.
A string procura um padrão numérico que começa com zero. Se o seu documento normalmente tiver a data "5 de março de 2022", ou seja, sem o número "0" antes do número "5", o "0" na sequência de caracteres será omitido.
[12][0-9] Esta sequência de caracteres significa que o número pode começar com "1" ou "2", seguido por qualquer número de 0 a 9. O resultado pode ser qualquer número de 10 a 29 sai.

3[01] Esta string significa que um número pode começar com "3" seguido de "0" ou "1". O resultado pode ser 30 ou 31.

Depois de definidas as opções para o dia, deverá ser determinada a expressão para o ano.

Agora procuramos a vírgula e o espaço: ,\s

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Extrair ano

No último grupo procuramos o ano: (20\d{2})

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d {2 })

Começamos a procurar qualquer ano, mas sabemos que será ≥ 2.000.

20 Esta string significa que estamos procurando qualquer ano que comece exatamente com 20.

\d{2} Esta string significa que estamos procurando um possível número de dois dígitos, ou seja, de "00" a "99".

Por exemplo, o caractere \d corresponde a um dígito entre 0 e 9, enquanto o caractere \d{2} corresponde a um número de dois dígitos.

Variables are read from the document and made available

Se a expressão regular agora for usada no PaperOffice, o resultado final será a data "20 de setembro de 2019".

Desta forma, qualquer data pode ser lida em um documento sem que saibamos o valor original. Esses grupos também podem ser usados em qualquer outro lugar e movidos livremente para ler outros formatos de data.

Aqui está outro exemplo:

Invoices with different formats can be easily read

A data começa com o dia, seguido do mês, composto por letras, mas a primeira letra é sempre maiúscula, seguida de um ponto final, outro espaço e depois o ano.

Para extrair esta data pode-se utilizar a expressão regular (REGEX) que acabamos de descrever, com um preenchimento adicional, pois no segundo exemplo o "ponto" é dado após o mês.

Isso pode ser especificado com a seguinte sequência de caracteres: \.

Portanto, a expressão completa fica assim:

(0[1-9]|[12][0-9]|3[01])\s([A-Z][a-z]{2})\.\s(20\d{2 })

Você sempre pode validar seu regex criado acessando a página https://regex101.com para validá-lo junto com seu texto de inserção. Regex101 não apenas verificará se sua regex está correta, mas também explicará a maior parte da expressão regular para você.

E assim você pode usar diferentes conjuntos de caracteres para qualquer coisa.

Leia o número do pedido graças ao REGEX

Como outro exemplo, gostaríamos de ler o número do pedido no documento.

Order numbers are extracted from the document

O número do pedido em nosso documento é formatado da seguinte forma:

Isso sempre começa com letras maiúsculas XYB, seguidas por um hífen, seguido por 8 dígitos, outro hífen e finalmente 3 letras maiúsculas aleatórias.

Exemplos de números de pedido seriam:

XYB-12316723-LSH

XYB-98456723-JRD

Para extrair esse número de pedido, podemos usar a seguinte expressão regular:

XYB-\d{8}-[A-Z]{3}

Vamos analisar a expressão uma por uma.

Primeiro procuramos exatamente as três primeiras letras maiúsculas com o símbolo de traço: XYB-

XYB\d{8}-[A-Z]{3}

Depois disso procuramos 8 dígitos seguidos de outro hífen: \d{8}-

XYB-\d{8}-[A-Z]{3}

O caractere \d, conforme descrito anteriormente, corresponde a um dígito entre 0 e 9, enquanto o caractere \d{8} corresponde a um número de oito dígitos.

E, finalmente, procuramos quaisquer três letras maiúsculas: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Esta é a aparência do PaperOffice com os seguintes números de pedido:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

os dois primeiros XYB-12316723-LSH e XYB-98456723-JRD

reconhecer.

Preparamos um link para Regex101 para este exemplo, no qual a expressão regular que acabamos de descrever está listado com 4 exemplos. Você pode ver que apenas dois dos números de pedido fornecidos atendem aos nossos requisitos.

Leia os números dos artigos graças ao REGEX

O número do artigo em nosso documento está formatado da seguinte forma:

Isso sempre começa com duas letras maiúsculas, seguidas por um hífen, seguido de 6 dígitos.

Various item numbers can be read from invoices

Exemplos de números de itens seriam:

MS-863398

DS-452829

Para extrair esses números de artigos, podemos usar a seguinte expressão regular:

[A-Z]{2}-\d{6}

O PaperOffice pode digitalizar seus documentos e integrá-los aos seus sistemas para automatizar a extração de dados de faturas e outras documentações sem precisar escrever e manter toneladas de código.

Entre em contato conosco para falar sobre seus casos de uso e saber mais sobre como o PaperOffice pode ajudá-lo a se tornar ainda mais competitivo na era digital.

Começar é mais fácil do que você pensa.

Você ainda está preocupado em não conseguir? Leia estudos de caso de nossos clientes sobre a integração do PaperOffice em sua vida empresarial e convença-se da simplicidade ou simplesmente solicite uma instalação de teste.

Usando expressões regulares REGEX para coleta e extração automatizada de dados (Parte 2)

O que é uma expressão regular?

Como as expressões regulares podem ajudar a automatizar um negócio?

Como posso construir expressões regulares?

Como extraio informações do meu documento usando REGEX?

Exemplos práticos

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d {2 })

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Extrair mês

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Data de extração

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Extrair ano

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d {2 })

(0[1-9]|[12][0-9]|3[01])\s([A-Z][a-z]{2})\.\s(20\d{2 })

Leia o número do pedido graças ao REGEX

XYB-\d{8}-[A-Z]{3}

XYB\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Leia os números dos artigos graças ao REGEX

[A-Z]{2}-\d{6}

ERROR: LID-5754 missing

ERROR: LID-5761 missing

ERROR: LID-5758 missing

ERROR: LID-5797 missing

ERROR: LID-5791 missing

ERROR: LID-5785 missing

ERROR: LID-5790 missing

ERROR: LID-5780 missing

ERROR: LID-5758 missing

ERROR: LID-5775 missing

ERROR: LID-6029 missing

ERROR: LID-5764 missing

ERROR: LID-5801 missing

ERROR: LID-5768 missing