Il newsletter di PaperOffice Insider
Il newsletter di PaperOffice Insider
Vogliamo diventare amici

Le offerte di sconto più alte possibili

Notizie esclusive per gli addetti ai lavori

Aggiornamenti bonus gratuiti

Le offerte di sconto più alte possibili

Notizie esclusive per gli addetti ai lavori

Aggiornamenti bonus gratuiti

Amicizia-Fiducia-Parola d'onore
Non condivideremo mai il tuo indirizzo email con altri e ogni email include un link per annullare l'iscrizione con un solo clic.

Esegui l'elaborazione intelligente dei documenti in modo accurato


Attraverso l'elaborazione automatizzata e la lettura dei dati con l'intelligenza artificiale (AI), un sistema di gestione dei documenti come PaperOffice DMS può aiutarti a ridurre i costi aziendali fino al 92% e aumentare l'efficienza operativa.

Consiglio professionale

Raccolta automatizzata dei dati con espressioni regolari: come elaborare in modo efficiente grandi quantità di dati utilizzando le espressioni regolari.


La chiave per la raccolta e l'estrazione automatizzate dei dati.
Esempi di espressioni regolari per la raccolta e l'estrazione automatizzata dei dati. Grazie a OCR, KI e REGEX in PaperOffice, l'elaborazione intelligente dei documenti può essere completamente garantita.

In questo articolo ti mostreremo come utilizzare le espressioni regolari per sfruttare i vantaggi dell'elaborazione automatizzata dei documenti. Questo vale in particolare per i documenti di aziende di qualsiasi settore.

Ti mostriamo esempi esatti di espressioni regolari e spieghiamo passo dopo passo cosa significano e come utilizzarli.

In questo modo puoi aumentare la tua efficienza operativa, ridurre l'errore umano attraverso una maggiore precisione, ridurre i costi attuali, mantenere l'integrità dei dati e migliorare la sicurezza dei dati.

L'articolo attuale estende la prima parte sull'elaborazione intelligente dei documenti. Qui puoi accedere direttamente all'articolo..

L'estrazione di dati specifici dai documenti può essere un'attività estremamente costosa e dispendiosa in termini di tempo. Spesso le scansioni dei documenti vengono inviate a grandi società di immissione dati in outsourcing, dove i dati vengono inseriti manualmente.

Tuttavia, ci sono diversi svantaggi in questo approccio, come segue:

  • Ciò può mettere a repentaglio la sicurezza dei documenti
  • Viene introdotto un ritardo nei processi del flusso di lavoro
  • Rispetto all'estrazione automatizzata, l'indicizzazione manuale è un processo lento
  • L'indicizzazione manuale non si adatta bene ai progetti di grandi dimensioni
  • L'indicizzazione manuale può introdurre errori nei dati
  • Se un documento viene modificato, l'intero processo ricomincia da capo

E molti altri.

Nonostante la proliferazione della scansione, gran parte delle transazioni commerciali si basa ancora su documenti cartacei. Si stima che l'85% delle fatture siano ancora emesse su supporto cartaceo.

Inoltre, ci sono montagne di carta esistente che devono essere immagazzinate in enormi magazzini!

Cos'è un'espressione regolare?

Le espressioni regolari, note anche come "REGEX", sono un potente strumento per la ricerca e la manipolazione del testo. Permettono di riconoscere e modificare modelli complessi nel testo.

Un'espressione regolare è costituita da una combinazione di lettere normali e metacaratteri speciali che hanno funzioni speciali.

Le espressioni regolari possono essere utilizzate anche per sostituire o manipolare il testo. Ad esempio, è possibile utilizzare un'espressione regolare.

Sono uno strumento molto potente per l'elaborazione di testi e l'automazione delle attività.

In che modo le espressioni regolari possono aiutare ad automatizzare un'azienda?

L'aumento di documenti digitali di diverso tipo, diverse regole di denominazione e senza un sistema di ricerca sufficiente complica il processo di ricerca e il processo di estrazione delle informazioni sui documenti da determinati contenuti, soprattutto quando si tratta di documenti non classificati, la ricerca diventa imprecisa e richiede tanto tempo.

Le espressioni regolari (regex) forniscono un modo veloce e potente per trovare, estrarre e sostituire dati specifici nei documenti. Le espressioni regolari sono essenzialmente una stringa di testo speciale utilizzata per descrivere un modello di ricerca.

In questo modo viene cercato e letto il contenuto del documento per una stringa di caratteri specificata. Le espressioni regolari sono un modo per definire modelli nelle informazioni utilizzando simboli speciali.

Il metodo Regex è più adatto per i documenti in cui le posizioni dei valori da leggere possono variare e i modelli di documento semplici non possono funzionare.

Puoi trovare un elenco di espressioni semplici nel nostro ComDesk.

PaperOffice Regex example collection
Extensive expressions can be used from the PaperOffice Regex example collection

Come posso creare espressioni regolari?

Le espressioni regolari possono essere assemblate in diversi modi, a seconda del tipo di modello da cercare.

Utilizza metacaratteri come ., *, +, ?, ^, $, [] e [a-z] per rappresentare tipi specifici di caratteri o modelli.

Utilizza parti facoltative: utilizza il punto interrogativo (?) o l'asterisco (*) per rendere facoltative parti del modello.

Utilizza gruppi: utilizza le parentesi per raggruppare parti del modello e trattarle come un'unità.

È importante notare che le regole delle espressioni regolari possono variare in base al linguaggio di programmazione. Quindi è importante leggere la documentazione degli strumenti utilizzati. Le RegEx scritte per PaperOffice devono essere compatibili con ECMAScript e PCRE2.

Suggerimento

C'è anche un video su YouTube sull'argomento "ARCHIVIAZIONE automatizzata dei documenti Parte 3 / REGEX e variabili / Gestione dei documenti per l'elaborazione delle fatture ", che spiega questo processo in modo semplice e chiaro:

Contenuto

Come posso estrarre informazioni dal mio documento utilizzando REGEX?

Esempi pratici

Nel presente articolo, dimostriamo come è possibile estrarre qualsiasi dato dal documento grazie alle espressioni regolari multi-elemento in PaperOffice e memorizzarlo automaticamente come parola chiave per il documento.

Di seguito abbiamo creato un documento di esempio con una data specifica. Questo documento è una fattura. Lo schema della data sul nostro documento è formattato in questo modo:

Read out PaperOffice invoice with regex
Extract information automatically from invoices

Mese, composto da lettere, ma la prima lettera è sempre maiuscola, seguita da uno spazio, poi il giorno seguito da una virgola, un altro spazio e poi l'anno.

Ad esempio: 20 settembre 2019 o 05 marzo 2022


Per estrarre questa data possiamo utilizzare la seguente espressione regolare (REGEX):

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d {2 })

Scomponiamo l'espressione in singoli gruppi. Questi gruppi sono separati da parentesi quadre ().

Nel primo gruppo cerchiamo le lettere dei 3 mesi: ([A-Z][a-z]{2})

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Estrai mese

  • [A-Z] Questa stringa significa che stiamo cercando una lettera maiuscola dalla A-Z. Ad esempio, la lettera "S" di Sept. Va notato che le lettere maiuscole e minuscole vengono trattate separatamente.
  • [a-z]{2} Questa stringa significa che stiamo cercando due lettere minuscole dalla a-z. Sarebbe ep da "Sep".

Quindi cerchiamo uno spazio con la seguente stringa: \s

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Estrai data

Nel secondo gruppo cerca la designazione del giorno in numeri: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Il giorno deve essere separato da tre dichiarazioni diverse.
Poiché non sappiamo quale data può apparire nel documento, può essere il primo giorno (01) o l'ultimo giorno (31) del mese, quindi tu devono essere denominate di conseguenza diverse opzioni.
Questi sono separati dal carattere "|".
Esempio: (1|2|3) = 1 o 2 o 3.

Segue tra parentesi quadre un elenco di caratteri consentiti. Più parentesi quadre corrispondono a più caratteri. Se un'espressione deve descrivere più caratteri, questi vengono semplicemente uniti uno dopo l'altro. Quindi l'input viene confrontato con la tua espressione da sinistra a destra.

Naturalmente non tutti i numeri devono essere elencati. Nel complesso, tuttavia, l'intera espressione tra parentesi rappresenta un solo carattere.

  • 0[1-9] Questa stringa significa che il numero può iniziare con uno "0" seguito da un numero da 1 a 9. Quindi otteniamo qualsiasi numero compreso tra 01 e 09.

    La stringa cerca uno schema numerico che inizia con uno zero. Se normalmente il vostro documento porta la data "5. marzo 2022", cioè senza la cifra "0" davanti alla cifra "5", lo "0" nella stringa di caratteri viene omesso.

  • [12][0-9] Questa stringa di caratteri significa che il numero può iniziare con un "1" o un "2", seguito da qualsiasi numero compreso tra 0 e 9. Il risultato può essere qualsiasi esce il numero da 10 a 29.
  • 3[01] Questa stringa significa che un numero può iniziare con un "3" seguito da uno "0" o da un "1". Il risultato potrebbe essere 30 o 31.

Dopo aver definito le opzioni per il giorno, è necessario determinare l'espressione per l'anno.

Ora cerchiamo la virgola e lo spazio: ,\s

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s (20 \d{2})

Estrai anno

Nell'ultimo gruppo cerchiamo l'anno: (20\d{2})

([A-Z][a-z]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d {2 })

Iniziamo a cercare un anno qualsiasi, ma sappiamo che sarà ≥ 2000.

  • 20 Questa stringa significa che stiamo cercando qualsiasi anno che inizi esattamente con 20.
  • \d{2} Questa stringa significa che stiamo cercando un possibile numero a due cifre, cioè da "00" a "99".

Ad esempio, il carattere \d corrisponde a una cifra compresa tra 0 e 9, mentre il carattere \d{2} corrisponde a un numero a due cifre.

Variables are read from the document and made available
Variables are read from the document and made available

Se l'espressione regolare viene ora utilizzata in PaperOffice, il risultato finale è la data "20 settembre 2019".

In questo modo, qualsiasi data può essere letta da un documento senza che noi ne conosciamo il valore originale. Questi gruppi possono essere utilizzati anche altrove e spostati liberamente per leggere altri formati di data.

Ecco un altro esempio:

Read PaperOffice Invoice 2 with Regex
Invoices with different formats can be easily read

La data inizia con il giorno, seguito dal mese, composto da lettere, ma la prima lettera è sempre maiuscola, seguita da un punto, un altro spazio e poi l'anno.

Per estrarre questa data è possibile utilizzare l'espressione regolare (REGEX) appena descritta, con un ulteriore completamento, poiché nel secondo esempio il "punto" viene fornito dopo il mese.

Questo può essere specificato con la seguente stringa di caratteri: \.

Quindi l'espressione completa assomiglia a questa:

(0[1-9]|[12][0-9]|3[01])\s([A-Z][a-z]{2})\.\s(20\d{2 })

Puoi sempre convalidare la tua regex creata andando alla pagina https://regex101.com per convalidarla insieme a il tuo Inserisci testo. Regex101 non solo controllerà se la tua espressione regolare è corretta, ma ti spiegherà la maggior parte dell'espressione regolare.

Quindi puoi utilizzare i diversi set di caratteri per qualsiasi cosa.

Leggi il numero dell'ordine grazie a REGEX

Come altro esempio, vorremmo leggere il numero dell'ordine dal documento.

Variables are read from the document and made available
Order numbers are extracted from the document

Il numero d'ordine sul nostro documento è formattato come segue:

Inizia sempre con le lettere maiuscole XYB, seguite da un trattino, seguito da 8 cifre, un altro trattino e infine 3 lettere maiuscole casuali.

Esempi di numeri d'ordine sarebbero:

XYB-12316723-LSH

XYB-98456723-JRD

Per estrarre questo numero d'ordine possiamo utilizzare la seguente espressione regolare:

XYB-\d{8}-[A-Z]{3}

Analizziamo l'espressione una per una.

Per prima cosa cerchiamo esattamente le prime 3 lettere maiuscole con il simbolo del trattino: XYB-

XYB\d{8}-[A-Z]{3}

Successivamente cerchiamo 8 cifre seguite da un altro trattino: \d{8}-

XYB-\d{8}-[A-Z]{3}

Il carattere \d, come descritto in precedenza, corrisponde a una cifra compresa tra 0 e 9, mentre il carattere \d{8} corrisponde a un numero di otto cifre.

E infine cerchiamo 3 lettere maiuscole qualsiasi: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Ecco come apparirà PaperOffice con i seguenti numeri d'ordine:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

i primi due XYB-12316723-LSH e XYB-98456723-JRD

riconoscere.

Abbiamo preparato un link a Regex101 per questo esempio, in cui l'espressione regolare appena descritta è elencato con 4 esempi. Come puoi vedere, solo due dei numeri d'ordine indicati soddisfano i nostri requisiti.

Leggi i numeri degli articoli grazie a REGEX

Il numero dell'articolo sul nostro documento è formattato come segue:

Inizia sempre con due lettere maiuscole, seguite da un trattino e poi da 6 cifre.

Read PaperOffice invoice with Regex
Various item numbers can be read from invoices

Esempi di numeri di articolo sarebbero:

MS-863398

DS-452829

Per estrarre questi numeri di articolo, possiamo utilizzare la seguente espressione regolare:

[A-Z]{2}-\d{6}

PaperOffice può digitalizzare i tuoi documenti e integrarsi con i tuoi sistemi per automatizzare l'estrazione dei dati da fatture e altra documentazione senza dover scrivere e quindi mantenere tonnellate di codice.

Contattaci per parlare dei tuoi casi d'uso e scoprire di più su come PaperOffice può aiutarti a diventare ancora più competitivo nell'era digitale.

Iniziare è più facile di quanto pensi.

Sei ancora preoccupato di non farcela? Leggi i case study dei nostri clienti sull'integrazione di PaperOffice nella tua vita aziendale e convinciti della semplicità o richiedi semplicemente un'installazione di prova.

FAQs

Per concludere, risponderemo a qualche domanda frequente sull'argomento. "Utilizzo delle espressioni regolari REGEX per la raccolta e l'estrazione automatizzate dei dati (Parte 2)":

A chi è adatto un ufficio senza carta?

La risposta semplice e veloce alla domanda è: per ogni azienda. Tutti i settori e le dimensioni aziendali traggono vantaggio da un ufficio senza carta, dalle PMI e start-up alle grandi aziende. Tuttavia, la conversione è particolarmente vantaggiosa per le piccole e medie imprese: La riduzione degli sforzi e dei costi di elaborazione libera il budget necessario per ulteriori incentivi alla crescita.

Posso utilizzare un provider DMS basato su cloud per il mio ufficio senza carta?

No. Un altro fattore che è sulla bocca di tutti da quando il GDPR è entrato in vigore al più tardi nel 2018 è la protezione dei dati. Le soluzioni DMS e il software DMS vengono utilizzati per elaborare, gestire e archiviare documenti che spesso contengono dati personali sensibili. In caso di violazioni del GDPR il legislatore prevede sanzioni elevate.

Conclusione

  • I vantaggi giustificano lo sforzo e i costi

    Lavorare in digitale e portare i vecchi documenti nella nuova era sarà il miglior investimento chiave per risparmiare un'incredibile quantità di tempo, denaro e nervi in futuro.

  • Hai bisogno di qualcuno che lo sappia

    Non hai bisogno di un tuo specialista IT per sfruttare tutti i vantaggi della digitalizzazione.
    Ciò di cui hai bisogno è il partner giusto al tuo fianco che, grazie alla sua esperienza, può implementare esattamente ciò di cui hai bisogno. Evita l'allarmismo e scegli posizioni di prova invece di fantasiose presentazioni PowerPoint senza averle realmente testate.

  • L'hardware solitamente è già disponibile

    L'esperienza ha dimostrato che quasi ogni operazione, azienda e azienda dispone di una fotocopiatrice di grandi dimensioni che non sfrutta il suo potenziale. Questi dispositivi adorano le scansioni di massa, tollerano le graffette e possono rappresentare la base per un avvio digitale senza investimenti in scanner.

  • Più economico del previsto con il DMS giusto

    Evita le trappole dei costi con i sistemi DMS/ECM in cui sei spietatamente alla mercé dei produttori. Non scendere a compromessi quando si tratta delle tue opzioni amministrative, come ad esempio i documenti didattici e la definizione delle impostazioni da solo. Se hai bisogno di aiuto, il produttore sarà felice di aiutarti, ma rimani indipendente.

  • L'automazione digitale è il futuro

    Le procedure saranno completamente identiche in futuro, ma completamente automatizzate.
    Fattura in arrivo? Il flusso di lavoro viene attivato e tutto procede nel modo definito.
    Cercare in tutte le 1000 cartelle? Nessun problema, perché hai il tuo Google!

PaperOffice risolve qualsiasi problema: garantito.

Studio di caso

Ottimizzazione dei flussi di lavoro grazie a PaperOffice DMS

"Già al primo appuntamento con PaperOffice si notano i 20 anni di esperienza di PaperOffice nel campo della gestione documentale."

Alexander Staruk
Chief Financial Officer presso la Confraternita Mennonita Bielefeld e. V.