Käytä säännöllisiä lausekkeita REGEX automatisoituun tietojen keräämiseen ja poimintaan (osa 2)
Korkein mahdollinen alennustarjous
Yksinomainen sisäpiiritieto
Ilmaisia bonuksen päivityksiä
Korkein mahdollinen alennustarjous
Yksinomainen sisäpiiritieto
Ilmaisia bonuksen päivityksiä
Ystävyys luottamus Kunnia sana
Emme koskaan anna sähköpostiosoitettasi kenellekään muulle, ja jokaisessa sähköpostissa on yhden klikkauksen peruuta-tilauslinkki.
Nykyisessä artikkelissa näytämme, miten voit hyödyntää säännöllisiä lausekkeita nauttiaksesi automatisoidusta asiakirjojen käsittelystä. Tämä pätee erityisesti yritysten asiakirjoihin kaikilla toimialoilla.
Näytämme sinulle tarkkoja esimerkkejä säännöllisistä lausekkeista ja selitämme vaihe vaiheelta, mitä ne tarkoittavat ja miten niitä voi käyttää.
Näin voit lisätä liiketoiminnan tehokkuutta, vähentää ihmisen virheitä parantamalla tarkkuutta, alentaa nykyisiä kustannuksia, säilyttää tiedon eheyden ja parantaa tietoturvaa.
Tämä artikkeli laajentaa ensimmäistä osaa älykkäästä asiakirjankäsittelystä, pääset artikkeliin suoraan tästä.
Tiettyjen tietoelementtien eristäminen asiakirjoista voi olla erittäin kallis ja aikaavievä tehtävä. Usein asiakirjojen skannaukset lähetetään suuriin ulkoistettuihin tietojenkeruuyrityksiin, joissa tiedot syötetään käsin.
Tällä lähestymistavalla on kuitenkin erilaisia haittoja, kuten:
Niin monia muita.
Paperiasiakirjoihin perustuu edelleen suuri osa liiketoiminnan tapahtumista, vaikka skannaamisen levinneisyys onkin suuri. Arvioidaan, että 85% laskuista on edelleen paperilla.
Lisäksi on olemassa vuoria olemassa olevaa paperia, jotka on varastoitu valtaviin varastoihin!
Säännölliset lausekkeet, tunnetaan myös nimellä "regex", ovat tehokas työkalu tekstien etsimiseen ja manipulointiin. Ne mahdollistavat monimutkaisten mallien tunnistamisen ja muokkaamisen teksteissä.
Säännöllinen lauseke koostuu tavallisten kirjainten ja erikoismetamerkkien yhdistelmästä, joilla on erityisiä toimintoja.
Säännöllisiä lausekkeita voidaan myös käyttää tekstin korvaamiseen tai muokkaamiseen. Esimerkiksi säännöllinen lauseke voidaan käyttää.
Ne ovat erittäin tehokas työkalu tekstinkäsittelyyn ja tehtävien automatisointiin.
Eri tyyppisten ja nimikkeiltään erilaisten digitaalisten asiakirjojen määrän kasvaessa ilman riittävää hakujärjestelmää sekä tietyn sisällön tiedoista dokumenttien tulkitsemisprosessi vaikeutuu ja kestää kauemmin, erityisesti silloin, kun kyseessä on luokittelemattomat asiakirjat, haku on epätarkkaa ja vie aikaa.
Asiakirjan sisältöä etsitään ennalta määrätyn merkkijonon avulla ja eristetään se.Säännölliset lausekkeet ovat tapa määritellä malleja tietoihin käyttämällä erityisiä symboleja.
Regex-menetelmä sopii parhaiten asiakirjoihin, joiden poimittavien arvojen sijainnit voivat vaihdella ja yksinkertaiset asiakirjapohjat eivät riitä.
Luettelo yksinkertaisista ilmaisuista löytyy ComDeskistämme.
Säännöllisiä lausekkeita voidaan koota eri tavoin riippuen etsittävästä mallista.
Käytä erikoismerkkejä, kuten ., *, +, ?, ^, $, [] ja [a-z] edustamaan tiettyjä merkkejä tai malleja.
Käytä valinnaisia osia: käytä kysymysmerkkiä (?) tai tähteä (*), jotta osat mallista ovat valinnaiset.
Käytä ryhmiä: käytä pyöreitä sulkeita, jotta voit ryhmitellä osia mallista ja käsitellä niitä yhtenä kokonaisuutena.
On tärkeää huomata, että säännöllisten lausekkeiden säännöt voivat vaihdella ohjelmointikielestä riippuen. Siksi on tärkeää lukea käytettyjen työkalujen dokumentointi. PaperOfficeen käytetyt Regexit on oltava yhteensopivia ECMAScriptin ja PCRE2:n kanssa.
Vinkki
Automaattiseen asiakirjojen SÄILÖNTÄÄN / REGEX & Variaabelien / Laskujen automaattiseen käsittelyyn on myös YouTube-video, joka selittää tämän prosessin helposti ja ymmärrettävästi:
Tässä artikkelissa näytämme, kuinka voit käyttää moniosaisia säännöllisiä lausekkeita PaperOffice-järjestelmässä, jotta voit poimia ja tallentaa automaattisesti dokumentin metatietoja.
Alla on esimerkkidokumentti, joka sisältää tietyn päivämäärän. Tässä dokumentissa on lasku ja päivämäärämuoto on seuraava:
Kuukausi koostuu kirjaimista, joista ensimmäinen kirjain on aina iso, sitten välilyönti, päivämäärä pilkulla erotettuna, toinen välilyönti ja sitten vuosi.
Esimerkiksi: Sep 20, 2019 tai Mär 05, 2022
Tämän päivämäärän poimimiseksi voimme käyttää seuraavaa säännöllistä lauseketta (REGEX):
Pilkomme lausekkeen eri ryhmiin, jotka erotetaan yksinkertaisilla sulkeilla ().
Ensimmäisessä ryhmässä haemme kolmen kuukauden kirjainta: ([A-Z][a-zä]{2})
Etsimme sitten välilyöntiä käyttäen seuraavaa merkkijonoa: \s
Toisessa ryhmässä etsitään numeromuotoista päivää: (0[1-9]|[12][0-9]|3[01])
Päivä on jaettava kolmeen osaan, koska emme tiedä, mistä päivämäärätiedoista dokumentissa on kyse. Esimerkiksi päivä voi olla joko kuukauden alussa (01) tai lopussa (31), joten on määriteltävä useita vaihtoehtoja.
Hakuruudussa on luettelo sallituista merkeistä. Useampi hakuruutu vastaa useampia merkkejä. Jos ilmoitus kuvaa useita merkkejä, ne vain yhdistyvät toisiinsa. Sitten syöte verrataan lausekkeeseen vasemmalta oikealle.
On selvää, että kaikki numerot eivät aina näy. Koko ryhmä vastaa kuitenkin vain yhtä merkkiä.
Merkkijono etsii numerojärjestelmää, jossa on nolla, jos dokumentissasi on yleensä päivämäärämuoto „5. März 2022“ ilman, että 0 on ennen 5, tarvitset tätä merkkijonoa.
Kun päivälle on määritetty vaihtoehdot, on aika määrittää vuosi
Etsimme nyt pilkkua ja välilyöntiä: ,\s
Viimeisessä ryhmässä etsitään vuotta: (20\d{2})
Aloituskohteenamme on mikä tahansa vuosi, joka on 2000 tai sen jälkeen.
Toisena esimerkkinä haluamme lukea tilausnumeron asiakirjasta.
Asiakirjamme tilausnumero on muotoiltu seuraavasti:
Se alkaa aina isoilla kirjaimilla XYB, sitten on viiva, jota seuraa 8 numeroa, toinen viiva ja lopuksi 3 sattumanvaraista iso kirjainta.
Tilausnumeron esimerkkejä ovat:
XYB-12316723-LSH
XYB-98456723-JRD
Tilausnumeron erottamiseksi voimme käyttää seuraavaa säännöllistä lausetta:
Puretaan lause osiin yksitellen.
Etsimme ensin kolme isoa kirjainta viivalla: XYB-
Sitten etsimme 8 numeroa, jotka seuraa toista viivaa: \d{8}-
Merkki \d, kuten jo mainittiin, tarkoittaa numeroa väliltä 0-9, taas merkki \d{8} etsii 8-numeroista numeroyhdistelmää.
Ja lopuksi etsimme 3 mielivaltaista isoa kirjainta: [A-Z]{3}
PaperOffice tunnistaisi seuraavista tilausnumeroista:
XYB-12316723-LSH
XYB-98456723-JRD
XYB-975432671829
ZYB-12342176-ZHD
kaksi ensimmäistä XYB-12316723-LSH ja XYB-98456723-JRD
.
Olemme valmistaneet esimerkin kaltaiselle Regex101-linkin, joka näyttää juuri kuvaillun säännöllisen lauseen neljällä esimerkillä. Näet, että vain kahdet annetuista tilausnumeronäytteistä vastaavat vaatimuksiamme.
Artikkelinumero asiakirjassamme on muotoiltu seuraavasti:
Se alkaa aina kahdella isolla kirjaimella, sen jälkeen on viiva, ja perässä on 6 numeroa.
Artikkelinumeron esimerkkejä ovat:
MS-863398
DS-452829
Artikkelinumeroiden erottamiseksi voimme käyttää seuraavaa säännöllistä lausetta:
PaperOffice voi digitoida asiakirjasi ja integroida ne järjestelmiisi, jotta voit automatisoida tietojen erottamisen laskuista ja muista asiakirjoista, ilman että sinun tarvitsee kirjoittaa loputtomasti koodeja ja ylläpitää niitä myöhemmin.
Ota yhteyttä meihin, keskustellaan käyttötarkoituksestasi ja saadaan lisätietoa siitä, miten PaperOffice voi auttaa sinua kilpailemaan digitaalisella aikakaudella.
Aloitetaan on helpompaa kuin luuletkaan.
Oletko yhä huolissasi, etten pysty siihen? Lue asiakkaidemme tapaustutkimuksia PaperOffice-integraatiosta liiketoimintaasi ja vakuuta itsesi yksinkertaisuudesta tai hae testi-asennusta helposti.
ERROR: LID-5759 missing
ERROR: LID-6036 missing
ERROR: LID-6035 missing
ERROR: LID-5763 missing
ERROR: LID-6039 missing
ERROR: LID-6035 missing
ERROR: LID-5756 missing
ERROR: LID-6042 missing
ERROR: LID-5803 missing
ERROR: LID-5793 missing
ERROR: LID-6069 missing
ERROR: LID-6070 missing
ERROR: LID-5787 missing
ERROR: LID-6072 missing
ERROR: LID-6035 missing
ERROR: LID-5789 missing
ERROR: LID-6077 missing
ERROR: LID-6070 missing
ERROR: LID-6074 missing
ERROR: LID-5771 missing
ERROR: LID-6075 missing
ERROR: LID-6035 missing
ERROR: LID-5777 missing
ERROR: LID-5759 missing
ERROR: LID-5763 missing
ERROR: LID-5800 missing
ERROR: LID-5769 missing
ERROR: LID-6082 missing
ERROR: LID-6083 missing