Utilisation d'expressions régulières REGEX pour la collecte et l'extraction automatisées de données (partie 2)

Grâce au traitement et à la lecture automatisés des données grâce à l'intelligence artificielle (IA), un système de gestion de documents tel que PaperOffice DMS peut vous aider à réduire les coûts de votre entreprise jusqu'à 92 % et à augmenter l'efficacité opérationnelle.

Dans l'article actuel, nous vous montrons comment utiliser les expressions régulières pour profiter des avantages du traitement automatisé des documents. Cela s’applique en particulier aux documents provenant d’entreprises de tous secteurs.

Nous vous montrons des exemples précis d'expressions régulières et expliquons étape par étape ce qu'elles signifient et comment vous pouvez les utiliser.

De cette façon, vous pouvez augmenter votre efficacité opérationnelle, réduire les erreurs humaines grâce à une plus grande précision, réduire vos coûts actuels, maintenir l'intégrité des données et améliorer la sécurité des données.

L'article actuel étend la première partie sur le traitement intelligent des documents, vous amène directement à l'article.

Extraire des éléments de données spécifiques à partir de documents peut être une tâche extrêmement coûteuse et chronophage. Souvent, les documents numérisés sont envoyés à de grandes sociétés de saisie de données externalisées, où les données sont saisies à la main.

Cependant, cette approche présente plusieurs inconvénients, comme suit :

Cela peut compromettre la sécurité des documents
Un retard est introduit dans les processus de workflow
Par rapport à l'extraction automatisée, l'indexation manuelle est un processus lent
L'indexation manuelle ne s'adapte pas bien aux grands projets
L'indexation manuelle peut introduire des erreurs dans les données
Si un document est modifié, tout le processus recommence

Et bien d'autres encore.

Malgré la prolifération de la numérisation, une grande partie des transactions commerciales repose encore sur des documents papier. On estime que 85 % des factures sont encore émises sur papier.

De plus, il existe des montagnes de papier existant qui doivent être stockées dans d'immenses entrepôts !

Qu'est-ce qu'une expression régulière ?

Les expressions régulières, également connues sous le nom de « REGEX », sont un outil puissant pour rechercher et manipuler du texte. Ils permettent de reconnaître et de modifier des modèles complexes dans le texte.

Une expression régulière consiste en une combinaison de lettres normales et de métacaractères spéciaux qui ont des fonctions spéciales.

Les expressions régulières peuvent également être utilisées pour remplacer ou manipuler du texte. Par exemple, une expression régulière peut être utilisée.

Il s'agit d'un outil très puissant pour le traitement de texte et l'automatisation des tâches.

Comment les expressions régulières peuvent-elles aider à automatiser une entreprise ?

L'augmentation des documents numériques de différents types, des règles de dénomination différentes et sans un système de recherche suffisant complique le processus de recherche et le processus d'extraction des informations documentaires de certains contenus, notamment lorsqu'il s'agit de documents non classifiés, la recherche devient imprécise et prend un long moment.

Les expressions régulières (regex) offrent un moyen rapide et puissant de rechercher, d'extraire et de remplacer des données spécifiques dans des documents. Les expressions régulières sont essentiellement une chaîne de texte spéciale utilisée pour décrire un modèle de recherche.

C'est ainsi que le contenu du document est recherché et lu pour une chaîne de caractères spécifiée. Les expressions régulières sont un moyen de définir des modèles d'informations à l'aide de symboles spéciaux.

La méthode Regex est la mieux adaptée aux documents dans lesquels les positions des valeurs à lire peuvent varier et où les modèles de documents simples ne peuvent pas fonctionner.

Vous pouvez trouver une liste d'expressions simples dans notre ComDesk.

Extensive expressions can be used from the PaperOffice Regex example collection

Comment puis-je créer des expressions régulières ?

Les expressions régulières peuvent être assemblées de différentes manières, selon le type de modèle recherché.

Utilisez des métacaractères tels que ., *, +, ?, ^, $, [] et [a-z] pour représenter des types spécifiques de caractères ou de modèles.

Utiliser des parties facultatives : utilisez le point d'interrogation (?) ou l'astérisque (*) pour rendre certaines parties du modèle facultatives.

Utiliser des groupes : utilisez des parenthèses pour regrouper des parties du motif et les traiter comme une unité.

Il est important de noter que les règles d'expression régulière peuvent varier selon le langage de programmation. Il est donc important de lire la documentation des outils utilisés. Le RegEx écrit pour PaperOffice doit être compatible avec ECMAScript et PCRE2.

Astuce

Il existe également une vidéo sur YouTube sur le thème "STOCKAGE Automatisé de Documents Partie 3 / REGEX & Variables / Traitement des Factures Gestion des Documents ", ce qui explique ce processus de manière simple et claire :

Comment extraire des informations de mon document à l'aide de REGEX ?

Exemples pratiques

Dans l'article actuel, nous montrons comment extraire n'importe quelle donnée du document grâce aux expressions régulières multi-éléments dans PaperOffice et la stocker automatiquement en tant que mot-clé pour le document.

Nous avons créé ci-dessous un exemple de document comportant une date spécifique. Ce document est une facture. Le modèle de date sur notre document est formaté comme ceci :

Extract information automatically from invoices

Mois, composé de lettres, mais la première lettre est toujours en majuscule, suivie d'un espace, puis du jour suivi d'une virgule, d'un autre espace, et enfin de l'année.

Par exemple : 20 septembre 2019 ou 5 mars 2022

Pour extraire cette date nous pouvons utiliser l'expression régulière suivante (REGEX) :

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d {2 })

Décomposons l'expression en groupes individuels. Ces groupes sont séparés par des crochets simples ().

Dans le premier groupe nous recherchons les lettres de 3 mois : ([A-Z][a-z]{2})

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Extraire le mois

[A-Z] Cette chaîne signifie que nous recherchons une lettre majuscule de A à Z. Par exemple, la lettre "S" de Sept. Il convient de noter que les lettres majuscules et minuscules sont traitées séparément.
[a-z]{2} Cette chaîne signifie que nous recherchons deux lettres minuscules de a à z. Ce serait ep de "septembre".

Ensuite, nous recherchons un espace avec la chaîne suivante : \s

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Date d'extraction

Dans le deuxième groupe, recherchez la désignation du jour en chiffres : (0[1-9]|[12][0-9]|3[01])

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Le jour doit être séparé par trois déclarations différentes.
Comme nous ne savons pas quelle date peut apparaître dans le document, il peut s'agir du premier jour (01) ou du dernier jour (31) du mois, donc vous devez en conséquence différentes options sont nommées.
Ceux-ci sont séparés par le caractère "|".
Exemple : (1|2|3) = 1 ou 2 ou 3.

Une liste de caractères autorisés suit entre crochets. Plusieurs crochets correspondent à plusieurs caractères. Si une expression doit décrire plusieurs caractères, ceux-ci sont simplement attachés les uns après les autres. Ensuite, l'entrée est comparée à votre expression de gauche à droite.

Bien entendu, tous les numéros ne doivent pas nécessairement être répertoriés. Cependant, dans l’ensemble, l’expression entière entre crochets ne représente qu’un seul caractère.

0[1-9] Cette chaîne signifie que le nombre peut commencer par un "0" suivi d'un nombre de 1 à 9. Nous obtenons donc n'importe quel nombre de 01 à 09.
La chaîne recherche un modèle numérique commençant par un zéro. Si votre document porte normalement la date "5 mars 2022", c'est-à-dire sans le chiffre "0" devant le chiffre "5", le "0" dans la chaîne de caractères est omis.
[12][0-9] Cette chaîne de caractères signifie que le nombre peut commencer par un "1" ou un "2", suivi de n'importe quel nombre de 0 à 9. Le résultat peut être n'importe quel nombre les numéros de 10 à 29 sortent.

3[01] Cette chaîne signifie qu'un nombre peut commencer par un "3" suivi d'un "0" ou d'un "1". Le résultat pourrait être 30 ou 31.

Une fois les options pour le jour définies, l'expression pour l'année doit être déterminée.

Maintenant, cherchons la virgule et l'espace : ,\s

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Année d'extraction

Dans le dernier groupe nous recherchons l'année : (20\d{2})

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d {2 })

Nous commençons à chercher n'importe quelle année, mais sachez que ce sera ≥ 2000.

20 Cette chaîne signifie que nous recherchons n'importe quelle année commençant par exactement 20.

\d{2} Cette chaîne signifie que nous recherchons un éventuel nombre à deux chiffres, c'est-à-dire de "00" à "99".

Par exemple, le caractère \d correspond à un chiffre compris entre 0 et 9, tandis que le caractère \d{2} correspond à un nombre à deux chiffres.

Variables are read from the document and made available

Si l'expression régulière est maintenant utilisée dans PaperOffice, le résultat final est la date "20 septembre 2019".

De cette manière, n'importe quelle date peut être lue dans un document sans que nous connaissions la valeur originale. Ces groupes peuvent également être utilisés n'importe où ailleurs et déplacés librement pour lire d'autres formats de date.

Voici un autre exemple :

Invoices with different formats can be easily read

La date commence par le jour, suivi du mois, composé de lettres, mais la première lettre est toujours en majuscule, suivie d'un point, d'un autre espace, puis de l'année.

Pour extraire cette date, l'expression régulière (REGEX) qui vient d'être décrite peut être utilisée, avec une complétion supplémentaire, car dans le deuxième exemple le "point" est donné après le mois.

Ceci peut être spécifié avec la chaîne de caractères suivante : \.

L'expression complète ressemble donc à ceci :

(0[1-9]|[12][0-9]|3[01])\s([A-Z][a-z]{2})\.\s(20\d{2 })

Vous pouvez toujours valider votre regex créée en vous rendant sur la page https://regex101.com pour la valider avec votre Insérer du texte. Regex101 vérifiera non seulement si votre regex est correcte, mais vous expliquera la plupart de l'expression régulière.

Vous pouvez ainsi utiliser les différents jeux de caractères pour tout.

Lire le numéro de commande grâce à REGEX

Comme autre exemple, nous aimerions lire le numéro de commande du document.

Order numbers are extracted from the document

Le numéro de commande sur notre document est formaté comme suit :

Cela commence toujours par les lettres majuscules XYB, suivies d'un trait d'union, suivi de 8 chiffres, d'un autre trait d'union et enfin de 3 lettres majuscules aléatoires.

Des exemples de numéros de commande seraient :

XYB-12316723-LSH

XYB-98456723-JRD

Pour extraire ce numéro de commande, nous pouvons utiliser l'expression régulière suivante :

XYB-\d{8}-[A-Z]{3}

Décomposons les expressions une par une.

Nous recherchons d'abord exactement les 3 premières lettres majuscules avec le symbole du tiret : XYB-

XYB\d{8}-[A-Z]{3}

Après cela, nous recherchons 8 chiffres suivis d'un autre trait d'union : \d{8}-

XYB-\d{8}-[A-Z]{3}

Le caractère \d, comme décrit précédemment, correspond à un chiffre compris entre 0 et 9, tandis que le caractère \d{8} correspond à un nombre à huit chiffres.

Et enfin, nous recherchons 3 lettres majuscules : [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Voici à quoi ressemblerait PaperOffice avec les numéros de commande suivants :

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

les deux premiers XYB-12316723-LSH et XYB-98456723-JRD

reconnaître.

Nous avons préparé un lien vers Regex101 pour cet exemple, dans lequel l'expression régulière qui vient d'être décrite est répertorié avec 4 exemples. Vous pouvez constater que seuls deux des numéros de commande indiqués répondent à nos exigences.

Lire les numéros d'articles grâce à REGEX

Le numéro d'article sur notre document est formaté comme suit :

Cela commence toujours par deux lettres majuscules, suivies d'un trait d'union et de 6 chiffres.

Various item numbers can be read from invoices

Des exemples de numéros d'articles seraient :

MS-863398

DS-452829

Pour extraire ces numéros d'articles, nous pouvons utiliser l'expression régulière suivante :

[A-Z]{2}-\d{6}

PaperOffice peut numériser vos documents et s'intégrer à vos systèmes pour automatiser l'extraction de données à partir de factures et d'autres documents sans avoir à écrire puis à gérer des tonnes de code.

Contactez-nous pour parler de vos cas d'utilisation et en savoir plus sur la façon dont PaperOffice peut vous aider à devenir encore plus compétitif à l'ère numérique.

Commencer est plus facile que vous ne le pensez.

Es-tu toujours inquiet de ne pas y arriver ? Lisez les études de cas de nos clients sur l'intégration de PaperOffice dans votre vie professionnelle et laissez-vous convaincre par la simplicité ou postulez simplement pour une installation test.

Utilisation d'expressions régulières REGEX pour la collecte et l'extraction automatisées de données (partie 2)

Qu'est-ce qu'une expression régulière ?

Comment les expressions régulières peuvent-elles aider à automatiser une entreprise ?

Comment puis-je créer des expressions régulières ?

Comment extraire des informations de mon document à l'aide de REGEX ?

Exemples pratiques

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d {2 })

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Extraire le mois

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Date d'extraction

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Année d'extraction

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d {2 })

(0[1-9]|[12][0-9]|3[01])\s([A-Z][a-z]{2})\.\s(20\d{2 })

Lire le numéro de commande grâce à REGEX

XYB-\d{8}-[A-Z]{3}

XYB\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Lire les numéros d'articles grâce à REGEX

[A-Z]{2}-\d{6}

ERROR: LID-5754 missing

ERROR: LID-5761 missing

ERROR: LID-5758 missing

ERROR: LID-5797 missing

ERROR: LID-5791 missing

ERROR: LID-5785 missing

ERROR: LID-5790 missing

ERROR: LID-5780 missing

ERROR: LID-5758 missing

ERROR: LID-5775 missing

ERROR: LID-6029 missing

ERROR: LID-5764 missing

ERROR: LID-5801 missing

ERROR: LID-5768 missing