Le bulletin d'information PaperOffice Insider
Le bulletin d'information PaperOffice Insider
Nous voulons devenir amis.

Les offres de réduction les plus élevées.

Actualités exclusives

Mises à niveau gratuites en bonus

Les offres de réduction les plus élevées.

Actualités exclusives

Mises à niveau gratuites en bonus

Amitié-Confiance-Parole d'honneur
Nous ne divulguerons jamais votre adresse e-mail à d'autres et chaque e-mail contiendra un lien pour vous désabonner en un clic.

Effectuer un traitement intelligent des documents avec précision


Grâce au traitement et à la lecture automatisés des données grâce à l'intelligence artificielle (IA), un système de gestion de documents tel que PaperOffice DMS peut vous aider à réduire les coûts de votre entreprise jusqu'à 92 % et à augmenter l'efficacité opérationnelle.

Conseil professionnel

Collecte de données automatisée avec des expressions régulières : comment traiter efficacement de grandes quantités de données à l'aide d'expressions régulières.


La clé de la collecte et de l'extraction de données automatisées.

Dans l'article actuel, nous vous montrons comment utiliser les expressions régulières pour profiter des avantages du traitement automatisé des documents. Cela s’applique en particulier aux documents provenant d’entreprises de tous secteurs.

Nous vous montrons des exemples précis d'expressions régulières et expliquons étape par étape ce qu'elles signifient et comment vous pouvez les utiliser.

De cette façon, vous pouvez augmenter votre efficacité opérationnelle, réduire les erreurs humaines grâce à une plus grande précision, réduire vos coûts actuels, maintenir l'intégrité des données et améliorer la sécurité des données.

L'article actuel étend la première partie sur le traitement intelligent des documents, vous amène directement à l'article.

Extraire des éléments de données spécifiques à partir de documents peut être une tâche extrêmement coûteuse et chronophage. Souvent, les documents numérisés sont envoyés à de grandes sociétés de saisie de données externalisées, où les données sont saisies à la main.

Cependant, cette approche présente plusieurs inconvénients, comme suit :

  • Cela peut compromettre la sécurité des documents
  • Un retard est introduit dans les processus de workflow
  • Par rapport à l'extraction automatisée, l'indexation manuelle est un processus lent
  • L'indexation manuelle ne s'adapte pas bien aux grands projets
  • L'indexation manuelle peut introduire des erreurs dans les données
  • Si un document est modifié, tout le processus recommence

Et bien d'autres encore.

Malgré la prolifération de la numérisation, une grande partie des transactions commerciales repose encore sur des documents papier. On estime que 85 % des factures sont encore émises sur papier.

De plus, il existe des montagnes de papier existant qui doivent être stockées dans d'immenses entrepôts !

Qu'est-ce qu'une expression régulière ?

Les expressions régulières, également connues sous le nom de « REGEX », sont un outil puissant pour rechercher et manipuler du texte. Ils permettent de reconnaître et de modifier des modèles complexes dans le texte.

Une expression régulière consiste en une combinaison de lettres normales et de métacaractères spéciaux qui ont des fonctions spéciales.

Les expressions régulières peuvent également être utilisées pour remplacer ou manipuler du texte. Par exemple, une expression régulière peut être utilisée.

Il s'agit d'un outil très puissant pour le traitement de texte et l'automatisation des tâches.

Comment les expressions régulières peuvent-elles aider à automatiser une entreprise ?

L'augmentation des documents numériques de différents types, des règles de dénomination différentes et sans un système de recherche suffisant complique le processus de recherche et le processus d'extraction des informations documentaires de certains contenus, notamment lorsqu'il s'agit de documents non classifiés, la recherche devient imprécise et prend un long moment.

Les expressions régulières (regex) offrent un moyen rapide et puissant de rechercher, d'extraire et de remplacer des données spécifiques dans des documents. Les expressions régulières sont essentiellement une chaîne de texte spéciale utilisée pour décrire un modèle de recherche.

C'est ainsi que le contenu du document est recherché et lu pour une chaîne de caractères spécifiée. Les expressions régulières sont un moyen de définir des modèles d'informations à l'aide de symboles spéciaux.

La méthode Regex est la mieux adaptée aux documents dans lesquels les positions des valeurs à lire peuvent varier et où les modèles de documents simples ne peuvent pas fonctionner.

Vous pouvez trouver une liste d'expressions simples dans notre ComDesk.

PaperOffice Regex example collection
Extensive expressions can be used from the PaperOffice Regex example collection

Comment puis-je créer des expressions régulières ?

Les expressions régulières peuvent être assemblées de différentes manières, selon le type de modèle recherché.

Utilisez des métacaractères tels que ., *, +, ?, ^, $, [] et [a-z] pour représenter des types spécifiques de caractères ou de modèles.

Utiliser des parties facultatives : utilisez le point d'interrogation (?) ou l'astérisque (*) pour rendre certaines parties du modèle facultatives.

Utiliser des groupes : utilisez des parenthèses pour regrouper des parties du motif et les traiter comme une unité.

Il est important de noter que les règles d'expression régulière peuvent varier selon le langage de programmation. Il est donc important de lire la documentation des outils utilisés. Le RegEx écrit pour PaperOffice doit être compatible avec ECMAScript et PCRE2.

Astuce

Il existe également une vidéo sur YouTube sur le thème "STOCKAGE Automatisé de Documents Partie 3 / REGEX & Variables / Traitement des Factures Gestion des Documents ", ce qui explique ce processus de manière simple et claire :

Comment extraire des informations de mon document à l'aide de REGEX ?

Exemples pratiques

Dans l'article actuel, nous montrons comment extraire n'importe quelle donnée du document grâce aux expressions régulières multi-éléments dans PaperOffice et la stocker automatiquement en tant que mot-clé pour le document.

Nous avons créé ci-dessous un exemple de document comportant une date spécifique. Ce document est une facture. Le modèle de date sur notre document est formaté comme ceci :

Read out PaperOffice invoice with regex
Extract information automatically from invoices

Mois, composé de lettres, mais la première lettre est toujours en majuscule, suivie d'un espace, puis du jour suivi d'une virgule, d'un autre espace, et enfin de l'année.

Par exemple : 20 septembre 2019 ou 5 mars 2022


Pour extraire cette date nous pouvons utiliser l'expression régulière suivante (REGEX) :

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d {2 })

Décomposons l'expression en groupes individuels. Ces groupes sont séparés par des crochets simples ().

Dans le premier groupe nous recherchons les lettres de 3 mois : ([A-Z][a-z]{2})

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Extraire le mois

  • [A-Z] Cette chaîne signifie que nous recherchons une lettre majuscule de A à Z. Par exemple, la lettre "S" de Sept. Il convient de noter que les lettres majuscules et minuscules sont traitées séparément.
  • [a-z]{2} Cette chaîne signifie que nous recherchons deux lettres minuscules de a à z. Ce serait ep de "septembre".

Ensuite, nous recherchons un espace avec la chaîne suivante : \s

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Date d'extraction

Dans le deuxième groupe, recherchez la désignation du jour en chiffres : (0[1-9]|[12][0-9]|3[01])

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Le jour doit être séparé par trois déclarations différentes.
Comme nous ne savons pas quelle date peut apparaître dans le document, il peut s'agir du premier jour (01) ou du dernier jour (31) du mois, donc vous devez en conséquence différentes options sont nommées.
Ceux-ci sont séparés par le caractère "|".
Exemple : (1|2|3) = 1 ou 2 ou 3.

Une liste de caractères autorisés suit entre crochets. Plusieurs crochets correspondent à plusieurs caractères. Si une expression doit décrire plusieurs caractères, ceux-ci sont simplement attachés les uns après les autres. Ensuite, l'entrée est comparée à votre expression de gauche à droite.

Bien entendu, tous les numéros ne doivent pas nécessairement être répertoriés. Cependant, dans l’ensemble, l’expression entière entre crochets ne représente qu’un seul caractère.

  • 0[1-9] Cette chaîne signifie que le nombre peut commencer par un "0" suivi d'un nombre de 1 à 9. Nous obtenons donc n'importe quel nombre de 01 à 09.

    La chaîne recherche un modèle numérique commençant par un zéro. Si votre document porte normalement la date "5 mars 2022", c'est-à-dire sans le chiffre "0" devant le chiffre "5", le "0" dans la chaîne de caractères est omis.

  • [12][0-9] Cette chaîne de caractères signifie que le nombre peut commencer par un "1" ou un "2", suivi de n'importe quel nombre de 0 à 9. Le résultat peut être n'importe quel nombre les numéros de 10 à 29 sortent.
  • 3[01] Cette chaîne signifie qu'un nombre peut commencer par un "3" suivi d'un "0" ou d'un "1". Le résultat pourrait être 30 ou 31.

Une fois les options pour le jour définies, l'expression pour l'année doit être déterminée.

Maintenant, cherchons la virgule et l'espace : ,\s

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Année d'extraction

Dans le dernier groupe nous recherchons l'année : (20\d{2})

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d {2 })

Nous commençons à chercher n'importe quelle année, mais sachez que ce sera ≥ 2000.

  • 20 Cette chaîne signifie que nous recherchons n'importe quelle année commençant par exactement 20.
  • \d{2} Cette chaîne signifie que nous recherchons un éventuel nombre à deux chiffres, c'est-à-dire de "00" à "99".

Par exemple, le caractère \d correspond à un chiffre compris entre 0 et 9, tandis que le caractère \d{2} correspond à un nombre à deux chiffres.

Variables are read from the document and made available
Variables are read from the document and made available

Si l'expression régulière est maintenant utilisée dans PaperOffice, le résultat final est la date "20 septembre 2019".

De cette manière, n'importe quelle date peut être lue dans un document sans que nous connaissions la valeur originale. Ces groupes peuvent également être utilisés n'importe où ailleurs et déplacés librement pour lire d'autres formats de date.

Voici un autre exemple :

Read PaperOffice Invoice 2 with Regex
Invoices with different formats can be easily read

La date commence par le jour, suivi du mois, composé de lettres, mais la première lettre est toujours en majuscule, suivie d'un point, d'un autre espace, puis de l'année.

Pour extraire cette date, l'expression régulière (REGEX) qui vient d'être décrite peut être utilisée, avec une complétion supplémentaire, car dans le deuxième exemple le "point" est donné après le mois.

Ceci peut être spécifié avec la chaîne de caractères suivante : \.

L'expression complète ressemble donc à ceci :

(0[1-9]|[12][0-9]|3[01])\s([A-Z][a-z]{2})\.\s(20\d{2 })

Vous pouvez toujours valider votre regex créée en vous rendant sur la page https://regex101.com pour la valider avec votre Insérer du texte. Regex101 vérifiera non seulement si votre regex est correcte, mais vous expliquera la plupart de l'expression régulière.

Vous pouvez ainsi utiliser les différents jeux de caractères pour tout.

Lire le numéro de commande grâce à REGEX

Comme autre exemple, nous aimerions lire le numéro de commande du document.

Variables are read from the document and made available
Order numbers are extracted from the document

Le numéro de commande sur notre document est formaté comme suit :

Cela commence toujours par les lettres majuscules XYB, suivies d'un trait d'union, suivi de 8 chiffres, d'un autre trait d'union et enfin de 3 lettres majuscules aléatoires.

Des exemples de numéros de commande seraient :

XYB-12316723-LSH

XYB-98456723-JRD

Pour extraire ce numéro de commande, nous pouvons utiliser l'expression régulière suivante :

XYB-\d{8}-[A-Z]{3}

Décomposons les expressions une par une.

Nous recherchons d'abord exactement les 3 premières lettres majuscules avec le symbole du tiret : XYB-

XYB\d{8}-[A-Z]{3}

Après cela, nous recherchons 8 chiffres suivis d'un autre trait d'union : \d{8}-

XYB-\d{8}-[A-Z]{3}

Le caractère \d, comme décrit précédemment, correspond à un chiffre compris entre 0 et 9, tandis que le caractère \d{8} correspond à un nombre à huit chiffres.

Et enfin, nous recherchons 3 lettres majuscules : [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Voici à quoi ressemblerait PaperOffice avec les numéros de commande suivants :

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

les deux premiers XYB-12316723-LSH et XYB-98456723-JRD

reconnaître.

Nous avons préparé un lien vers Regex101 pour cet exemple, dans lequel l'expression régulière qui vient d'être décrite est répertorié avec 4 exemples. Vous pouvez constater que seuls deux des numéros de commande indiqués répondent à nos exigences.

Lire les numéros d'articles grâce à REGEX

Le numéro d'article sur notre document est formaté comme suit :

Cela commence toujours par deux lettres majuscules, suivies d'un trait d'union et de 6 chiffres.

Read PaperOffice invoice with Regex
Various item numbers can be read from invoices

Des exemples de numéros d'articles seraient :

MS-863398

DS-452829

Pour extraire ces numéros d'articles, nous pouvons utiliser l'expression régulière suivante :

[A-Z]{2}-\d{6}

PaperOffice peut numériser vos documents et s'intégrer à vos systèmes pour automatiser l'extraction de données à partir de factures et d'autres documents sans avoir à écrire puis à gérer des tonnes de code.

Contactez-nous pour parler de vos cas d'utilisation et en savoir plus sur la façon dont PaperOffice peut vous aider à devenir encore plus compétitif à l'ère numérique.

Commencer est plus facile que vous ne le pensez.

Es-tu toujours inquiet de ne pas y arriver ? Lisez les études de cas de nos clients sur l'intégration de PaperOffice dans votre vie professionnelle et laissez-vous convaincre par la simplicité ou postulez simplement pour une installation test.

FAQs

Pour finir, nous répondrons à quelques questions fréquemment posées sur le sujet. "Utilisation d'expressions régulières REGEX pour la collecte et l'extraction automatisées de données (partie 2)":

À qui convient un bureau sans papier ?

La réponse simple et rapide à la question est : pour chaque entreprise. Tous les secteurs et toutes les tailles d'entreprises bénéficient d'un bureau sans papier, des PME et start-up aux grandes entreprises. Cependant, la conversion est particulièrement intéressante pour les petites et moyennes entreprises : La réduction des efforts et des coûts de traitement libère le budget nécessaire pour stimuler davantage la croissance.

Puis-je utiliser un fournisseur DMS basé sur le cloud pour mon bureau sans papier ?

Non. Un autre sujet qui est sur toutes les lèvres depuis l’entrée en vigueur du RGPD au plus tard en 2018 est la protection des données. Les solutions DMS et les logiciels DMS sont utilisés pour traiter, gérer et stocker des documents contenant souvent des données personnelles et sensibles. En cas de violations du RGPD, le législateur prévoit des amendes élevées.

Conclusion

  • Les avantages justifient les efforts et les coûts

    Travailler numériquement et faire entrer d'anciens documents dans la nouvelle ère sera le meilleur investissement clé pour économiser une quantité incroyable de temps, d'argent et de nerfs à l'avenir.

  • Vous avez besoin de quelqu'un qui sait

    Vous n'avez pas besoin de votre propre informaticien pour profiter de tous les avantages de la numérisation.
    Ce dont vous avez besoin, c'est du bon partenaire à vos côtés qui, grâce à son expérience, peut mettre en œuvre exactement ce dont vous avez besoin. Évitez l'alarmisme et choisissez des postes de test plutôt que des présentations PowerPoint fantaisistes sans l'avoir vraiment testé.

  • Le matériel est généralement déjà disponible

    L'expérience a montré que presque toutes les opérations, entreprises et sociétés disposent d'un gros copieur qui n'utilise pas son potentiel. Ces appareils adorent les numérisations de masse, tolèrent les trombones et peuvent constituer la base d'un démarrage numérique sans investissement dans un scanner.

  • Moins cher que prévu avec le bon DMS

    Évitez les pièges des coûts avec les systèmes DMS/ECM où vous êtes impitoyablement à la merci des fabricants. Ne faites aucun compromis lorsqu'il s'agit de vos propres possibilités d'administration, comme par exemple les documents pédagogiques et la configuration vous-même. Si vous avez besoin d'aide, le fabricant se fera un plaisir de vous aider, mais reste indépendant.

  • L'automatisation numérique est l'avenir

    Les procédures seront complètement identiques à l'avenir, mais entièrement automatisées.
    Facture entrante ? Le flux de travail est déclenché et tout se déroule comme prévu.
    Rechercher dans les 1 000 dossiers ? Pas de problème, car vous disposez de votre propre Google !

PaperOffice résout tous les problèmes : garantie.

Étude de cas

Changement numérique dans le développement de produits - gestion réussie des documents

« Dans l’industrie, le sujet de la numérisation devient de plus en plus perceptible. Cela s’applique, par exemple, à nos fiches techniques, aux données clients, aux calculs ou à nos plans, dessins et configurations. Après l’introduction de PaperOffice DMS, l’effort manuel a pu être réduit. Nous sommes aujourd’hui des pionniers de la digitalisation dans les sociétés de production, l’Industrie 4.0. »

M. Antonio Jesús Sánchez
directeur général et ingénieur produits et procédés chez Butterfly Engineers S.L.