Usar expresións regulares REGEX para a recopilación e extracción automatizadas de datos (Parte 2)
Ofertas de desconto máximo possíveis.
Noticias exclusivas internas
Actualizacións gratuítas de bonificación.
Ofertas de desconto máximo possíveis.
Noticias exclusivas internas
Actualizacións gratuítas de bonificación.
Amizade Confianza Palabra de Honra
Nunca daremos a súa dirección de correo electrónico a ninguén máis e cada correo electrónico inclúe unha ligazón para darse de baixa cun só clic.
No artigo atual, mostramos como você pode usar expressões regulares para aproveitar os benefícios do processamento automatizado de documentos. Isso é especialmente válido para documentos de empresas de qualquer setor.
Mostraremos exemplos específicos de expressões regulares e explicaremos passo a passo o que eles significam e como usá-los.
Dessa forma, você pode aumentar a eficiência operacional, reduzir erros humanos por meio de maior precisão, diminuir os custos atuais, preservar a integridade dos dados e melhorar a segurança dos dados.
O artigo atual expande a primeira parte sobre processamento inteligente de documentos, clique aqui para acessar o artigo diretamente.
Extrair determinados elementos de dados de documentos pode ser uma tarefa extremamente cara e demorada. Com frequência, digitalizações de documentos são enviadas para grandes empresas de captura de dados terceirizadas, onde os dados são inseridos manualmente.
No entanto, existem várias desvantagens nessa abordagem, como:
E muitos outros.
Apesar da proliferação da digitalização, uma grande parte das transações comerciais ainda é baseada em documentos em papel. Estima-se que 85% das faturas ainda sejam emitidas em papel.
Além disso, há uma montanha de papel existente que precisa ser armazenada em grandes depósitos!
Expressões regulares, também conhecidas como "Regex", são uma poderosa ferramenta para busca e manipulação de texto. Elas permitem reconhecer e editar padrões complexos em texto.
Uma expressão regular consiste em uma combinação de letras normais e metacaracteres especiais que têm funções específicas.
As expressões regulares também podem ser usadas para substituir ou manipular texto. Por exemplo, uma expressão regular pode ser usada.
Eles são uma ferramenta muito poderosa para processamento de texto e automação de tarefas.
O aumento dos documentos digitais com diferentes tipos, regras de nomenclatura diferentes e a falta de um sistema de pesquisa adequado dificultam o processo de busca e extração de informações dos documentos de conteúdo específico, especialmente quando se trata de documentos não classificados, a pesquisa se torna imprecisa e demorada.
Assim, o conteúdo do documento é pesquisado e extraído após uma sequência de caracteres especificada.Expressões regulares são uma maneira de definir padrões em informações usando símbolos especiais.
O método Regex é melhor para documentos nos quais as posições dos valores a serem extraídos podem variar e os modelos de documentos simples não funcionam bem.
Uma lista de expressões simples pode ser encontrada em nosso ComDesk.
As expressões regulares podem ser construídas de diferentes maneiras, dependendo do tipo de padrão que está sendo procurado.
Usar metacaracteres como ., *, +, ?, ^, $, [] e [a-z] para representar tipos específicos de caracteres ou padrões.
Usar partes opcionais: Use o ponto de interrogação (?) ou asterisco (*) para tornar partes do padrão opcionais.
Usar grupos: Use parênteses para agrupar partes do padrão e tratá-las como uma única unidade.
É importante observar que as regras para expressões regulares podem variar de acordo com a linguagem de programação utilizada. Portanto, é importante ler a documentação das ferramentas utilizadas. As expressões regulares escritas para o PaperOffice devem ser compatíveis com ECMAScript e PCRE2.
Dica
Também há um vídeo no YouTube sobre o tema "Automated Document FILING / REGEX & Variables / Automating Invoice Processing" que explica esse processo de forma fácil e compreensível:
En el artículo actual, le mostraremos cómo puede extraer cualquier dato del documento y agregarlo automáticamente como palabras clave al documento, utilizando expresiones regulares de múltiples elementos en PaperOffice.
A continuación, hemos creado un documento de muestra que tiene una fecha específica. En este documento, se trata de una factura. El patrón de fecha en nuestro documento está formateado de la siguiente manera:
Mes, compuesto por letras, pero la primera letra siempre está en mayúscula, seguido de un espacio, luego el día seguido de una coma, otro espacio y luego el año.
Por ejemplo: Sep 20, 2019 o Mär 05, 2022
Para extraer esta fecha, podemos usar la siguiente expresión regular (REGEX):
Descompongamos la expresión en grupos separados por paréntesis simples ().
En el primer grupo buscamos las 3 letras del mes: ([A-Z][a-zä]{2})
Luego buscamos un espacio en blanco con la siguiente cadena: \s
En el segundo grupo buscamos el número del día: (0[1-9]|[12][0-9]|3[01])
La indicación del día debe dividirse en tres instrucciones diferentes.
Como no sabemos qué fecha puede haber en el documento, puede ser el primer día (01) o incluso el último día (31) del mes, por lo que deben especificarse diferentes opciones según corresponda.
Estas se separan con el símbolo “|”.
Ejemplo: (1|2|3) = 1 o 2 o 3.
Dentro de los corchetes, hay una lista de caracteres permitidos. Varios corchetes cuadrados corresponden a varios caracteres. Si una expresión describe varios caracteres, simplemente se colocan uno a continuación del otro. Luego, la entrada se compara con su expresión de izquierda a derecha.
Por supuesto, tampoco siempre deben indicarse todos los números. En total, la expresión entre paréntesis representa solo un carácter.
La cadena busca un patrón de número que comience con un cero. Si su documento normalmente contiene una indicación de fecha “5. März 2022”, es decir, sin el número “0” antes del número “5”, se eliminará el “0” en la cadena.
Después de definir las opciones para el día, debemos especificar la expresión para el año.
Luego buscamos la coma y el espacio en blanco: ,\s
En el último grupo buscamos el año: (20\d{2})
Comenzamos buscando cualquier número de año, pero sabemos que será ≥ 2000.
El símbolo \d, por ejemplo, representa un dígito del 0 al 9, nuevamente, el símbolo \d{2} busca un número de dos dígitos.
Si ahora se aplica la expresión regular en PaperOffice, el resultado final es la fecha "Sep 20, 2019".
De esta manera, se puede extraer cualquier fecha de un documento, sin necesidad de conocer el valor original. Estos grupos también se pueden usar en cualquier otro lugar y mover libremente para extraer otros formatos de fecha.
Aquí hay otro ejemplo:
La fecha comienza con el día, seguido del mes, compuesto por letras, pero la primera letra siempre está en mayúscula, luego hay un punto, otro espacio y luego el año.
Como exemplo adicional, queremos extrair o número do pedido do documento.
O número do pedido no nosso documento está formatado da seguinte forma:
Ele sempre começa com as letras maiúsculas XYB, seguido de um hífen, seguido por 8 dígitos, outro hífen e, finalmente, 3 letras maiúsculas aleatórias.
Exemplos de números de pedido seriam:
XYB-12316723-LSH
XYB-98456723-JRD
Para extrair esse número de pedido, podemos usar a seguinte expressão regular:
Vamos analisar a expressão passo a passo.
Primeiro, procuramos exatamente as primeiras 3 letras maiúsculas seguidas do hífen: XYB-
Em seguida, procuramos por 8 dígitos seguidos de outro hífen: \d{8}-
O caractere \d, como descrito anteriormente, representa um dígito de 0 a 9, então \d{8} procura por um número com 8 dígitos.
E por fim, procuramos por 3 letras maiúsculas aleatórias: [A-Z]{3}
Dessa forma, o PaperOffice reconheceria os dois primeiros números de pedido XYB-12316723-LSH e XYB-98456723-JRD a partir dos seguintes números de pedido:
XYB-12316723-LSH
XYB-98456723-JRD
XYB-975432671829
ZYB-12342176-ZHD
Preparamos um link para Regex101 para este exemplo, onde a expressão regular descrita acima é listada com 4 exemplos. Você verá que apenas dois dos números de pedido fornecidos atendem aos nossos requisitos.
O número do artigo no nosso documento está formatado da seguinte forma:
Ele sempre começa com duas letras maiúsculas, seguido de um hífen, seguido de 6 dígitos.
Exemplos de números de artigos seriam:
MS-863398
DS-452829
Para extrair esses números de artigos, podemos usar a seguinte expressão regular:
O PaperOffice pode digitalizar seus documentos e integrá-los aos seus sistemas para automatizar a extração de dados de faturas e outros documentos, sem ter que escrever e manter inúmeros códigos.
Contate-nos para discutir seus casos de uso e saber mais sobre como o PaperOffice pode ajudá-lo a se manter competitivo na era digital.
Começar é mais fácil do que você imagina.
Ainda tem dúvidas se você vai conseguir? Confira estudos de caso de nossos clientes sobre a integração do PaperOffice em seus negócios e veja com seus próprios olhos o quão simples é, ou solicite facilmente uma instalação de teste.
ERROR: LID-5759 missing
ERROR: LID-6036 missing
ERROR: LID-6035 missing
ERROR: LID-5763 missing
ERROR: LID-6039 missing
ERROR: LID-6035 missing
ERROR: LID-5756 missing
ERROR: LID-6042 missing
ERROR: LID-5803 missing
ERROR: LID-5793 missing
ERROR: LID-6069 missing
ERROR: LID-6070 missing
ERROR: LID-5787 missing
ERROR: LID-6072 missing
ERROR: LID-6035 missing
ERROR: LID-5789 missing
ERROR: LID-6077 missing
ERROR: LID-6070 missing
ERROR: LID-6074 missing
ERROR: LID-5771 missing
ERROR: LID-6075 missing
ERROR: LID-6035 missing
ERROR: LID-5777 missing
ERROR: LID-5759 missing
ERROR: LID-5763 missing
ERROR: LID-5800 missing
ERROR: LID-5769 missing
ERROR: LID-6082 missing
ERROR: LID-6083 missing