O boletim informativo PaperOffice Insider
O boletim informativo PaperOffice Insider
Queremos tornar-nos amigos

Melhores ofertas de desconto possíveis

Notícias exclusivas internas.

Upgrades de bônus gratuitos

Melhores ofertas de desconto possíveis

Notícias exclusivas internas.

Upgrades de bônus gratuitos

Amizade-Confiança-Palavra de Honra
Nunca compartilharemos seu endereço de e-mail com outras pessoas e cada e-mail incluirá um link para cancelar a inscrição em apenas um clique.

Execute o processamento inteligente de documentos com precisão


Através do processamento automatizado e leitura de dados com inteligência artificial (IA), um sistema de gestão de documentos como o PaperOffice DMS pode ajudá-lo a reduzir os custos do seu negócio em até 92% e aumentar a eficiência operacional.

Dica profissional

Coleta automatizada de dados com expressões regulares: como processar com eficiência grandes quantidades de dados usando expressões regulares.


A chave para a coleta e extração automatizada de dados.

No artigo atual, mostramos como você pode usar expressões regulares para aproveitar os benefícios do processamento automatizado de documentos. Isto se aplica especialmente a documentos de empresas de qualquer setor.

Mostramos exemplos exatos de expressões regulares e explicamos passo a passo o que elas significam e como você pode usá-las.

Desta forma, você pode aumentar sua eficiência operacional, reduzir erros humanos por meio de maior precisão, diminuir seus custos atuais, manter a integridade dos dados e melhorar a segurança dos dados.

O artigo atual estende a primeira parte sobre processamento inteligente de documentos, aqui leva você diretamente ao artigo.

Extrair elementos de dados específicos de documentos pode ser uma tarefa extremamente cara e demorada. Freqüentemente, as digitalizações de documentos são enviadas para grandes empresas terceirizadas de entrada de dados, onde os dados são inseridos manualmente.

No entanto, há diversas desvantagens nessa abordagem, como segue:

  • Isso pode comprometer a segurança dos documentos
  • Um atraso é introduzido nos processos de fluxo de trabalho
  • Comparada à extração automatizada, a indexação manual é um processo lento
  • A indexação manual não funciona bem em projetos grandes
  • A indexação manual pode introduzir erros nos dados
  • Se um documento for alterado, todo o processo recomeça

E muito mais.

Apesar da proliferação da digitalização, uma grande proporção das transações comerciais ainda se baseia em documentos em papel. Estima-se que 85% das faturas ainda sejam emitidas em papel.

Além disso, existem montanhas de papel que precisam ser armazenadas em enormes armazéns!

O que é uma expressão regular?

Expressões regulares, também conhecidas como "REGEX", são uma ferramenta poderosa para pesquisar e manipular texto. Eles possibilitam reconhecer e editar padrões complexos em texto.

Uma expressão regular consiste em uma combinação de letras normais e metacaracteres especiais que possuem funções especiais.

Expressões regulares também podem ser usadas para substituir ou manipular texto. Por exemplo, uma expressão regular pode ser usada.

Eles são uma ferramenta muito poderosa para processamento de texto e automação de tarefas.

Como as expressões regulares podem ajudar a automatizar um negócio?

O aumento de documentos digitais de diversos tipos, diferentes regras de nomenclatura e sem um sistema de busca suficiente complica o processo de busca e o processo de extração de informações documentais de determinado conteúdo, principalmente quando se trata de documentos não classificados, a busca se torna imprecisa e demora muito tempo.

Expressões regulares (regex) fornecem uma maneira rápida e poderosa de localizar, extrair e substituir dados específicos em documentos. Expressões regulares são essencialmente uma sequência de texto especial usada para descrever um padrão de pesquisa.

É assim que o conteúdo do documento é pesquisado e lido para uma sequência de caracteres especificada. Expressões regulares são uma forma de definir padrões em informações usando símbolos especiais.

O método Regex é mais adequado para documentos nos quais as posições dos valores a serem lidos podem variar e modelos de documentos simples não funcionam.

Você pode encontrar uma lista de expressões simples em nosso ComDesk.

PaperOffice Regex example collection
Extensive expressions can be used from the PaperOffice Regex example collection

Como posso construir expressões regulares?

As expressões regulares podem ser montadas de diferentes maneiras, dependendo do tipo de padrão que está sendo pesquisado.

Use metacaracteres como ., *, +, ?, ^, $, [] e [a-z] para representar tipos específicos de caracteres ou padrões.

Use partes opcionais: use o ponto de interrogação (?) ou o asterisco (*) para tornar opcionais as partes do padrão.

Use grupos: use parênteses para agrupar partes do padrão e tratá-las como uma unidade.

É importante observar que as regras de expressões regulares podem variar de acordo com a linguagem de programação. Por isso é importante ler a documentação das ferramentas utilizadas. O RegEx escrito para PaperOffice deve ser compatível com ECMAScript e PCRE2.

Dica

Há também um vídeo no YouTube sobre o tema "Armazenamento automatizado de documentos, parte 3 / REGEX e variáveis/Gerenciamento de documentos para processamento de faturas ", que explica esse processo de maneira fácil e clara:

Conteúdo

Como extraio informações do meu documento usando REGEX?

Exemplos práticos

No artigo atual, demonstramos como você pode extrair quaisquer dados do documento graças às expressões regulares de vários elementos no PaperOffice e armazená-los automaticamente como uma palavra-chave para o documento.

Criamos um documento de amostra abaixo com uma data específica. Este documento é uma fatura. O padrão de data em nosso documento está formatado assim:

Read out PaperOffice invoice with regex
Extract information automatically from invoices

Mês, composto por letras, mas a primeira letra é sempre maiúscula, seguida de espaço, depois o dia seguido de vírgula, outro espaço e depois o ano.

Por exemplo: 20 de setembro de 2019 ou 05 de março de 2022

Para extrair esta data podemos usar a seguinte expressão regular (REGEX):

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d {2 })

Vamos dividir a expressão em grupos individuais. Esses grupos são separados por colchetes simples ().

No primeiro grupo procuramos as letras dos 3 meses: ([A-Z][a-z]{2})

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Extrair mês

  • [A-Z] Esta string significa que estamos procurando uma letra maiúscula de A-Z. Por exemplo, a letra "S" de setembro. Deve-se observar que letras maiúsculas e minúsculas são tratadas separadamente.
  • [a-z]{2} Esta string significa que estamos procurando duas letras minúsculas de a-z. Seria o ep de "setembro".

Então procuramos um espaço com a seguinte string: \s

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Data de extração

No segundo grupo procure a designação do dia em números: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

O dia deve ser separado por três declarações diferentes.
Como não sabemos qual data pode aparecer no documento, pode ser o primeiro dia (01) ou o último dia (31) do mês, então você tem que ser nomeadas diferentes opções.
Eles são separados pelo caractere "|".
Exemplo: (1|2|3) = 1 ou 2 ou 3.

Uma lista de caracteres permitidos segue entre colchetes. Vários colchetes correspondem a vários caracteres. Se uma expressão descreve vários caracteres, estes são simplesmente anexados um após o outro. Em seguida, a entrada é comparada à sua expressão da esquerda para a direita.

É claro que nem todos os números precisam ser listados. No geral, entretanto, toda a expressão entre colchetes representa apenas um caractere.

  • 0[1-9] Esta string significa que o número pode começar com um "0" seguido por um número de 1 a 9. Portanto, obtemos qualquer número de 01 a 09.

    A string procura um padrão numérico que começa com zero. Se o seu documento normalmente tiver a data "5 de março de 2022", ou seja, sem o número "0" antes do número "5", o "0" na sequência de caracteres será omitido.

  • [12][0-9] Esta sequência de caracteres significa que o número pode começar com "1" ou "2", seguido por qualquer número de 0 a 9. O resultado pode ser qualquer número de 10 a 29 sai.
  • 3[01] Esta string significa que um número pode começar com "3" seguido de "0" ou "1". O resultado pode ser 30 ou 31.

Depois de definidas as opções para o dia, deverá ser determinada a expressão para o ano.

Agora procuramos a vírgula e o espaço: ,\s

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Extrair ano

No último grupo procuramos o ano: (20\d{2})

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d {2 })

Começamos a procurar qualquer ano, mas sabemos que será ≥ 2.000.

  • 20 Esta string significa que estamos procurando qualquer ano que comece exatamente com 20.
  • \d{2} Esta string significa que estamos procurando um possível número de dois dígitos, ou seja, de "00" a "99".

Por exemplo, o caractere \d corresponde a um dígito entre 0 e 9, enquanto o caractere \d{2} corresponde a um número de dois dígitos.

Variables are read from the document and made available
Variables are read from the document and made available

Se a expressão regular agora for usada no PaperOffice, o resultado final será a data "20 de setembro de 2019".

Desta forma, qualquer data pode ser lida em um documento sem que saibamos o valor original. Esses grupos também podem ser usados em qualquer outro lugar e movidos livremente para ler outros formatos de data.

Aqui está outro exemplo:

Read PaperOffice Invoice 2 with Regex
Invoices with different formats can be easily read

A data começa com o dia, seguido do mês, composto por letras, mas a primeira letra é sempre maiúscula, seguida de um ponto final, outro espaço e depois o ano.

Para extrair esta data pode-se utilizar a expressão regular (REGEX) que acabamos de descrever, com um preenchimento adicional, pois no segundo exemplo o "ponto" é dado após o mês.

Isso pode ser especificado com a seguinte sequência de caracteres: \.

Portanto, a expressão completa fica assim:

(0[1-9]|[12][0-9]|3[01])\s([A-Z][a-z]{2})\.\s(20\d{2 })

Você sempre pode validar seu regex criado acessando a página https://regex101.com para validá-lo junto com seu texto de inserção. Regex101 não apenas verificará se sua regex está correta, mas também explicará a maior parte da expressão regular para você.

E assim você pode usar diferentes conjuntos de caracteres para qualquer coisa.

Leia o número do pedido graças ao REGEX

Como outro exemplo, gostaríamos de ler o número do pedido no documento.

Variables are read from the document and made available
Order numbers are extracted from the document

O número do pedido em nosso documento é formatado da seguinte forma:

Isso sempre começa com letras maiúsculas XYB, seguidas por um hífen, seguido por 8 dígitos, outro hífen e finalmente 3 letras maiúsculas aleatórias.

Exemplos de números de pedido seriam:

XYB-12316723-LSH

XYB-98456723-JRD

Para extrair esse número de pedido, podemos usar a seguinte expressão regular:

XYB-\d{8}-[A-Z]{3}

Vamos analisar a expressão uma por uma.

Primeiro procuramos exatamente as três primeiras letras maiúsculas com o símbolo de traço: XYB-

XYB\d{8}-[A-Z]{3}

Depois disso procuramos 8 dígitos seguidos de outro hífen: \d{8}-

XYB-\d{8}-[A-Z]{3}

O caractere \d, conforme descrito anteriormente, corresponde a um dígito entre 0 e 9, enquanto o caractere \d{8} corresponde a um número de oito dígitos.

E, finalmente, procuramos quaisquer três letras maiúsculas: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Esta é a aparência do PaperOffice com os seguintes números de pedido:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

os dois primeiros XYB-12316723-LSH e XYB-98456723-JRD

reconhecer.

Preparamos um link para Regex101 para este exemplo, no qual a expressão regular que acabamos de descrever está listado com 4 exemplos. Você pode ver que apenas dois dos números de pedido fornecidos atendem aos nossos requisitos.

Leia os números dos artigos graças ao REGEX

O número do artigo em nosso documento está formatado da seguinte forma:

Isso sempre começa com duas letras maiúsculas, seguidas por um hífen, seguido de 6 dígitos.

Read PaperOffice invoice with Regex
Various item numbers can be read from invoices

Exemplos de números de itens seriam:

MS-863398

DS-452829

Para extrair esses números de artigos, podemos usar a seguinte expressão regular:

[A-Z]{2}-\d{6}

O PaperOffice pode digitalizar seus documentos e integrá-los aos seus sistemas para automatizar a extração de dados de faturas e outras documentações sem precisar escrever e manter toneladas de código.

Entre em contato conosco para falar sobre seus casos de uso e saber mais sobre como o PaperOffice pode ajudá-lo a se tornar ainda mais competitivo na era digital.

Começar é mais fácil do que você pensa.

Você ainda está preocupado em não conseguir? Leia estudos de caso de nossos clientes sobre a integração do PaperOffice em sua vida empresarial e convença-se da simplicidade ou simplesmente solicite uma instalação de teste.

FAQs

Para concluir, respondemos algumas perguntas frequentes sobre o assunto. "Usando expressões regulares REGEX para coleta e extração automatizada de dados (Parte 2)":

Para quem um escritório sem papel é adequado?

A resposta rápida e fácil para a pergunta é: para todas as empresas. Todos os setores e dimensões empresariais beneficiam de um escritório sem papel, desde PME e start-ups até grandes empresas. No entanto, a conversão é particularmente valiosa para pequenas e médias empresas: A redução no esforço e nos custos de processamento libera o orçamento necessário para novos impulsionadores do crescimento.

Posso usar um provedor de DMS baseado em nuvem para meu escritório sem papel?

Não. Outro fator que está na boca de todos desde que o GDPR entrou em vigor em 2018, o mais tardar, é a proteção de dados. As soluções DMS e o software DMS são usados para processar, gerenciar e armazenar documentos que geralmente contêm dados pessoais confidenciais. Em caso de violação do RGPD, o legislador prevê multas elevadas.

Conclusão

  • Os benefícios justificam o esforço e os custos

    Trabalhar digitalmente e trazer documentos antigos para a nova era será o melhor investimento para economizar uma quantidade incrível de tempo, dinheiro e nervosismo no futuro.

  • Você precisa de alguém que saiba

    Você não precisa de seu próprio especialista em TI para aproveitar todas as vantagens da digitalização.
    O que você precisa é do parceiro certo ao seu lado que, graças à sua experiência, possa implementar exatamente o que você precisa. Evite o alarmismo e escolha posições de teste em vez de apresentações sofisticadas em PowerPoint sem realmente ter testado.

  • O hardware geralmente já está disponível

    A experiência tem mostrado que quase todas as operações, empresas e empresas possuem uma grande copiadora que não aproveita seu potencial. Esses dispositivos adoram digitalizações em massa, são tolerantes com clipes de papel e podem ser a base para um início digital sem investimento em scanner.

  • Mais barato do que o esperado com o DMS certo

    Evite armadilhas de custos com sistemas DMS/ECM, onde você fica impiedosamente à mercê dos fabricantes. Não faça concessões quando se trata de suas próprias opções de administração, como ensinar documentos e fazer configurações você mesmo. Se precisar de ajuda, o fabricante terá prazer em ajudá-lo, mas permaneça independente.

  • Automação digital é o futuro

    Os procedimentos serão completamente idênticos no futuro, mas totalmente automatizados.
    Fatura chegando? O fluxo de trabalho é acionado e tudo segue conforme definido.
    Pesquisar em todas as 1.000 pastas? Não tem problema, porque você tem seu próprio Google!

PaperOffice resolve qualquer problema: Garantido.

Estudo de caso

Soluções especializadas digitais para automação de processos de negócios

"Processar manualmente os documentos em uma comunidade tão grande teria nos custado muito tempo.
Com a solução automatizada do PaperOffice DMS, o esforço manual poderia ser bastante reduzido, ao mesmo tempo em que os investimentos eram feitos em tecnologia orientada para o futuro. Somos pioneiros na gestão de propriedades digitais."

Sr. Alejandro Campos
especialista em TI e gerente de projetos na gestão imobiliária El Guijo