O boletín informativo PaperOffice Insider
O boletín informativo PaperOffice Insider
Queremos ser amigos

Ofertas de desconto máximo possíveis.

Noticias exclusivas internas

Actualizacións gratuítas de bonificación.

Ofertas de desconto máximo possíveis.

Noticias exclusivas internas

Actualizacións gratuítas de bonificación.

Amizade Confianza Palabra de Honra
Nunca daremos a súa dirección de correo electrónico a ninguén máis e cada correo electrónico inclúe unha ligazón para darse de baixa cun só clic.

Realizar correctamente el procesamiento inteligente de documentos.


Conseio práctico

Captura automatizada de datos con expresiones regulares: Cómo procesar grandes cantidades de datos de manera eficiente utilizando expresiones regulares.


La clave para la captura automatizada de datos y la extracción de datos.

No artigo atual, mostramos como você pode usar expressões regulares para aproveitar os benefícios do processamento automatizado de documentos. Isso é especialmente válido para documentos de empresas de qualquer setor.

Mostraremos exemplos específicos de expressões regulares e explicaremos passo a passo o que eles significam e como usá-los.

Dessa forma, você pode aumentar a eficiência operacional, reduzir erros humanos por meio de maior precisão, diminuir os custos atuais, preservar a integridade dos dados e melhorar a segurança dos dados.

O artigo atual expande a primeira parte sobre processamento inteligente de documentos, clique aqui para acessar o artigo diretamente.

Extrair determinados elementos de dados de documentos pode ser uma tarefa extremamente cara e demorada. Com frequência, digitalizações de documentos são enviadas para grandes empresas de captura de dados terceirizadas, onde os dados são inseridos manualmente.

No entanto, existem várias desvantagens nessa abordagem, como:

  • A segurança dos documentos pode ser comprometida
  • Uma demora é introduzida nos processos de fluxo de trabalho
  • Em comparação com a extração automatizada, a indexação manual é um processo lento
  • A indexação manual não pode ser dimensionada bem em projetos grandes
  • A indexação manual pode introduzir erros nos dados
  • Se um documento for alterado, todo o processo precisa ser reiniciado

E muitos outros.

Apesar da proliferação da digitalização, uma grande parte das transações comerciais ainda é baseada em documentos em papel. Estima-se que 85% das faturas ainda sejam emitidas em papel.

Além disso, há uma montanha de papel existente que precisa ser armazenada em grandes depósitos!

O que é uma expressão regular?

Expressões regulares, também conhecidas como "Regex", são uma poderosa ferramenta para busca e manipulação de texto. Elas permitem reconhecer e editar padrões complexos em texto.

Uma expressão regular consiste em uma combinação de letras normais e metacaracteres especiais que têm funções específicas.

As expressões regulares também podem ser usadas para substituir ou manipular texto. Por exemplo, uma expressão regular pode ser usada.

Eles são uma ferramenta muito poderosa para processamento de texto e automação de tarefas.

Como as expressões regulares podem ajudar na automação de uma empresa?

O aumento dos documentos digitais com diferentes tipos, regras de nomenclatura diferentes e a falta de um sistema de pesquisa adequado dificultam o processo de busca e extração de informações dos documentos de conteúdo específico, especialmente quando se trata de documentos não classificados, a pesquisa se torna imprecisa e demorada.

Expressões regulares (Regex) oferecem um método rápido e poderoso para procurar, extrair e substituir dados específicos em documentos. Expressões regulares são basicamente uma sequência de caracteres de texto especial que descreve um padrão de pesquisa.

Assim, o conteúdo do documento é pesquisado e extraído após uma sequência de caracteres especificada.Expressões regulares são uma maneira de definir padrões em informações usando símbolos especiais.

O método Regex é melhor para documentos nos quais as posições dos valores a serem extraídos podem variar e os modelos de documentos simples não funcionam bem.

Uma lista de expressões simples pode ser encontrada em nosso ComDesk.

PaperOffice Regex Beispielsammlung
Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

Como posso construir expressões regulares?

As expressões regulares podem ser construídas de diferentes maneiras, dependendo do tipo de padrão que está sendo procurado.

Usar metacaracteres como ., *, +, ?, ^, $, [] e [a-z] para representar tipos específicos de caracteres ou padrões.

Usar partes opcionais: Use o ponto de interrogação (?) ou asterisco (*) para tornar partes do padrão opcionais.

Usar grupos: Use parênteses para agrupar partes do padrão e tratá-las como uma única unidade.

É importante observar que as regras para expressões regulares podem variar de acordo com a linguagem de programação utilizada. Portanto, é importante ler a documentação das ferramentas utilizadas. As expressões regulares escritas para o PaperOffice devem ser compatíveis com ECMAScript e PCRE2.

Dica

Também há um vídeo no YouTube sobre o tema "Automated Document FILING / REGEX & Variables / Automating Invoice Processing" que explica esse processo de forma fácil e compreensível:

Contido

Como extraer información de mi documento con REGEX?

Ejemplos prácticos

En el artículo actual, le mostraremos cómo puede extraer cualquier dato del documento y agregarlo automáticamente como palabras clave al documento, utilizando expresiones regulares de múltiples elementos en PaperOffice.

A continuación, hemos creado un documento de muestra que tiene una fecha específica. En este documento, se trata de una factura. El patrón de fecha en nuestro documento está formateado de la siguiente manera:

PaperOffice Rechnung mit Regex zu auslesen
Informationen automatisiert aus Rechnungen extrahieren

Mes, compuesto por letras, pero la primera letra siempre está en mayúscula, seguido de un espacio, luego el día seguido de una coma, otro espacio y luego el año.

Por ejemplo: Sep 20, 2019 o Mär 05, 2022


Para extraer esta fecha, podemos usar la siguiente expresión regular (REGEX):

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Descompongamos la expresión en grupos separados por paréntesis simples ().

En el primer grupo buscamos las 3 letras del mes: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrayendo el mes

  • [A-Z] Esta cadena significa que estamos buscando una letra mayúscula de A-Z. Por ejemplo, la letra “S” de Sept. Tenga en cuenta que se distingue entre mayúsculas y minúsculas.
  • [a-zä]{2} Esta cadena significa que estamos buscando dos letras minúsculas de a-z y también la “ä” (para el nombre del mes en alemán “März”). Esto sería la ep de “Sep” o la är de “Mär” en alemán.

Luego buscamos un espacio en blanco con la siguiente cadena: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrayendo el día

En el segundo grupo buscamos el número del día: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

La indicación del día debe dividirse en tres instrucciones diferentes.
Como no sabemos qué fecha puede haber en el documento, puede ser el primer día (01) o incluso el último día (31) del mes, por lo que deben especificarse diferentes opciones según corresponda.
Estas se separan con el símbolo “|”.
Ejemplo: (1|2|3) = 1 o 2 o 3.

Dentro de los corchetes, hay una lista de caracteres permitidos. Varios corchetes cuadrados corresponden a varios caracteres. Si una expresión describe varios caracteres, simplemente se colocan uno a continuación del otro. Luego, la entrada se compara con su expresión de izquierda a derecha.

Por supuesto, tampoco siempre deben indicarse todos los números. En total, la expresión entre paréntesis representa solo un carácter.

  • 0[1-9] Esta cadena significa que el número puede comenzar con un “0”, seguido de un número del 1 al 9. Recibiremos cualquier número del 01 al 09.
  • La cadena busca un patrón de número que comience con un cero. Si su documento normalmente contiene una indicación de fecha “5. März 2022”, es decir, sin el número “0” antes del número “5”, se eliminará el “0” en la cadena.

  • [12][0-9] Esta cadena significa que el número puede comenzar con un “1” o un “2”, seguido de cualquier número del 0 al 9. Como resultado, puede haber cualquier número del 10 al 29.
  • 3[01] Esta cadena significa que el número puede comenzar con un “3”, seguido de un “0” o un “1”. Como resultado, podría ser 30 o 31.

Después de definir las opciones para el día, debemos especificar la expresión para el año.

Luego buscamos la coma y el espacio en blanco: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Extrayendo el año

En el último grupo buscamos el año: (20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Comenzamos buscando cualquier número de año, pero sabemos que será ≥ 2000.

  • 20 Esta cadena significa que buscamos cualquier número de año que comience exactamente con 20.
  • \d{2} Esta cadena significa que buscamos un posible número de dos dígitos, es decir, de "00" a "99".

El símbolo \d, por ejemplo, representa un dígito del 0 al 9, nuevamente, el símbolo \d{2} busca un número de dos dígitos.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Variablen werden aus dem Dokument ausgelesen und bereitgestellt

Si ahora se aplica la expresión regular en PaperOffice, el resultado final es la fecha "Sep 20, 2019".

De esta manera, se puede extraer cualquier fecha de un documento, sin necesidad de conocer el valor original. Estos grupos también se pueden usar en cualquier otro lugar y mover libremente para extraer otros formatos de fecha.

Aquí hay otro ejemplo:

PaperOffice Rechnung 2 mit Regex zu auslesen
Rechnungen mit verschiedenen Formaten können leicht ausgelesen werden

La fecha comienza con el día, seguido del mes, compuesto por letras, pero la primera letra siempre está en mayúscula, luego hay un punto, otro espacio y luego el año.

Ler o número do pedido usando REGEX

Como exemplo adicional, queremos extrair o número do pedido do documento.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Auftragsnummern werden aus dem Dokument extrahiert

O número do pedido no nosso documento está formatado da seguinte forma:

Ele sempre começa com as letras maiúsculas XYB, seguido de um hífen, seguido por 8 dígitos, outro hífen e, finalmente, 3 letras maiúsculas aleatórias.

Exemplos de números de pedido seriam:

XYB-12316723-LSH

XYB-98456723-JRD

Para extrair esse número de pedido, podemos usar a seguinte expressão regular:

XYB-\d{8}-[A-Z]{3}

Vamos analisar a expressão passo a passo.

Primeiro, procuramos exatamente as primeiras 3 letras maiúsculas seguidas do hífen: XYB-

XYB-\d{8}-[A-Z]{3}

Em seguida, procuramos por 8 dígitos seguidos de outro hífen: \d{8}-

XYB-\d{8}-[A-Z]{3}

O caractere \d, como descrito anteriormente, representa um dígito de 0 a 9, então \d{8} procura por um número com 8 dígitos.

E por fim, procuramos por 3 letras maiúsculas aleatórias: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Dessa forma, o PaperOffice reconheceria os dois primeiros números de pedido XYB-12316723-LSH e XYB-98456723-JRD a partir dos seguintes números de pedido:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

Preparamos um link para Regex101 para este exemplo, onde a expressão regular descrita acima é listada com 4 exemplos. Você verá que apenas dois dos números de pedido fornecidos atendem aos nossos requisitos.

Ler números de artigos usando REGEX

O número do artigo no nosso documento está formatado da seguinte forma:

Ele sempre começa com duas letras maiúsculas, seguido de um hífen, seguido de 6 dígitos.

PaperOffice Rechnung mit Regex zu auslesen
Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

Exemplos de números de artigos seriam:

MS-863398

DS-452829

Para extrair esses números de artigos, podemos usar a seguinte expressão regular:

[A-Z]{2}-\d{6}

O PaperOffice pode digitalizar seus documentos e integrá-los aos seus sistemas para automatizar a extração de dados de faturas e outros documentos, sem ter que escrever e manter inúmeros códigos.

Contate-nos para discutir seus casos de uso e saber mais sobre como o PaperOffice pode ajudá-lo a se manter competitivo na era digital.

Começar é mais fácil do que você imagina.

Ainda tem dúvidas se você vai conseguir? Confira estudos de caso de nossos clientes sobre a integração do PaperOffice em seus negócios e veja com seus próprios olhos o quão simples é, ou solicite facilmente uma instalação de teste.

FAQs

Finalmente, respondemos a algunhas preguntas máis frecuentemente formuladas sobre o tema "Usar expresións regulares REGEX para a recopilación e extracción automatizadas de datos (Parte 2)":

Para quen é adecuada unha oficina sen papel?

A resposta rápida e fácil á pregunta é: para todas as empresas. Todas as industrias e tamaños de empresa, desde pequenas e medianas empresas ata startups e grandes empresas, poden beneficiarse dunha oficina sen papel. A transición é especialmente valiosa para pequenas e medianas empresas porque a redución de traballo administrativo e custos libera orzamento necesario para impulsar o crecemento.

Podo usar un provedor de DMS baseado na nube para a miña oficina sen papel na empresa?

Non. Outro factor que está na boca de todos, especialmente desde a entrada en vigor do RGPD en 2018, é a protección de datos. As solucións de DMS e software de DMS utilizanse para procesar, xestionar e almacenar documentos que ás veces conteñen datos sensibles e persoais. No caso de incumprimento do RGPD, as autoridades poden impoñer altas multas.

Conclusión

  • As vantaxes xustifican o esforzo e os custos

    Traballar en formato dixital e levar os documentos antigos á nova era será a mellor inversión clave para aforrar unha cantidade enorme de tempo, diñeiro e nervios no futuro.

  • Precisa a alguén que entenda do tema

    Non precisa ter o seu propio especialista en tecnoloxía da información para aproveitar todas as vantaxes da dixitalización.
    O que precisa é ter o socio adecuado ao seu lado, que poda implementar exactamente o que necesita grazas á súa experiencia. Evite os alarmistas e opte por probas en lugar de presentacións pomposas en PowerPoint sen probalas realmente.

  • A maioría das veces, xa conta co hardware necesario

    Por experiencia, case todas as empresas xa posúen unha copiadora grande que non está a ser aproveitada ao máximo. Estes dispositivos son perfectos para escanear grandes volumes de documentos, son tolerantes a grapas e poden ser a base para comezar a dixitalización sen necesidade de investir nun escáner.

  • Máis económico do que se pode pensar cun DMS adecuado

    Evite trampas de custo con sistemas de xestión de documentos (DMS) / sistemas de xestión de contidos de empresa (ECM) nos que estea completamente submisos aos fabricantes. Non faga concesións en canto ás capacidades de administración propia, como aprender e configurar documentos vostede mesmo. Se precisa axuda, o fabricante estará encantado de axudar, pero mantéñase independente e autónomo.

  • Automatizar dixitalmente é o futuro

    As tarefas no futuro serán totalmente automatizadas, pero seguen o mesmo proceso.
    Unha factura entra? O fluxo de traballo actívase e todo segue o camiño previamente definido.
    Buscar entre mil folios de arquivos? Non hai problema, porque ten o seu propio Google!

PaperOffice resolve todos os problemas: Garantido.

Estudo de caso

Solucións dixitais para a automatización de procesos de negocio

"O procesamento manual dos documentos nunha comunidade tan grande custaríanos moito tempo.
Coa solución automatizada do DMS de PaperOffice, o esforzo manual podería reducirse moito, ao mesmo tempo que se realizaron investimentos en tecnoloxía orientada ao futuro. Somos pioneiros na administración da propiedade dixital".

D. Alejandro Campos
especialista en TI e director de proxectos na xestión inmobiliaria El Guijo