PaperOffice Vidinis Naujienlaiskis
PaperOffice Vidinis Naujienlaiskis
Mes norime būti draugais

Aukščiausios galimos nuolaidos pasiūlymai

Išskirtinė vidinės naujienos.

Nemokamos papildomos naujinimo versijos

Aukščiausios galimos nuolaidos pasiūlymai

Išskirtinė vidinės naujienos.

Nemokamos papildomos naujinimo versijos

Draugystė Pasitikėjimas Žodis Garbė
Mes niekada nepateiksime jūsų el. pašto adreso niekam kitam, ir kiekvienas el. paštas bus su vienklikio atsisakymo nuoroda.

Atlikite protingą dokumentų tvarkymą.


Profesinė rekomendacija

Automatinis duomenų rinkimas su reguliariaisiais išraiškomis: kaip efektyviai apdoroti didelius duomenų kiekius naudojant reguliarias išraiškas.


Rakto žodis automatiniam duomenų surinkimui ir išgavimui.

Dabartiniame straipsnyje mes jums parodysime, kaip naudoti reguliarius išraiškas, kad galėtumėte pasinaudoti automatizuotos dokumentų apdorojimo naudomis. Tai ypač taikoma visų pramonės šakų įmonių dokumentams.

Mes parodysime jums tiksliais reguliarių išraiškų pavyzdžiais ir paeiliui paaiškinsime, ką tai reiškia ir kaip jūs galite jas naudoti.

Taip jūs galite padidinti savo veiklos efektyvumą, mažinant klaidas, didinant tikslumą, mažinant sąnaudas, išlaikant duomenų vientisumą ir gerinant duomenų saugumą.

Šis straipsnis yra papildymas prieš tai buvo publikuoto straipsnio apie išmanųjį dokumentų apdorojimą, čia galite tiesiogiai pereiti prie straipsnio.

Tam tikrų duomenų elementų ištraukimas iš dokumentų gali būti itin brangus ir laiko išteklius reikalaujantis uždavinys. Dažnai dokumento skenavimus siunčiami didelioms paslaugų vidaus duomenų įmonėms, kur vyksta rankinė duomenų įvedimas.

Tačiau šiam procesui yra kelios trūkumai:

  • Tai gali pakenkti dokumento saugumui
  • Įeina vėlavimas į darbo eigos procesus
  • Palyginti su automatizuota paėmimu žymėjimu yra lėtas procesas
  • Neįmanoma embasuoti rankinio žymėjimo dideliuose projektuose
  • Gali būti klaidų duomenyse, jei buvo naudojamas rankinis žymėjimas
  • Jeigu dokumentas buvo pakeistas, visas procesas prasideda nuo naujo

Taip pat yra daug kitų trūkumų.

Nepaisant skenavimo plitimo, didžioji bendrovių sandorių dalis vis dar remiasi popieriniais dokumentais. Apie 85% sąskaitų išduodamos popieriuje.

Be to, yra labai daug turimų popierių, kurie turi būti saugomi dideliuose sandėliuose!

Kas yra reguliarus išraiškas?

Reguliarūs išraiškos, žinomos ir kaip "Regex", yra galingas įrankis, skirtas ieškoti ir keisti tekstus. Jie leidžia aptikti ir tvarkyti sudėtingus šablonus tekste.

Reguliarūs išraiškos susideda iš įprastų raidžių kombinacijos ir specialių metakortežų, turinčių specifines funkcijas.

Reguliarūs išreiškiai taip pat gali būti naudojami tekste keisti ar manipuliuoti. Pavyzdžiui, reguliariuoju išraiška galima atlikti šiuos uždavinius:

Jie yra labai galingas įrankis tekstų apdorojimui ir automatizavimui.

Kaip reguliarios išraiškos gali padėti automatizuoti įmonės procesus?

Digitale saugomų dokumentų, turinčių skirtingus tipus, skirtingus pavadinimo standartus ir neturinčius tinkamo paieškos sistemos, daugėjimas apsunkina paieškos procesą ir yra susijęs su tekstinių dokumentų informacijos išgavimo skaičiavimo. Ypač retai rustelėti, kai tai nėra susiję su klasifikuotais dokumentais.

Reguliarūs išraiškos (Regex) suteikia greitą ir galingą būdą spaminti, išgauti ir keisti tam tikrus duomenis dokumentuose. Reguliarūs išraiškos esminiame yra specialus tekstinis eilutės aprašas, apibrėžiantis ieškotino modelio paiešką.

Taigi norint atliekant paramos funkcijų rezultatas iš literos surasti ir išskirti duomenis iš dokumento. Reguliarūs išraiška yra būdas nubraižyti modelius informacijoje naudojant specifines simbolikos raides.

Reguliariausios iškelimo metodai geriausiai tinka dokumentams, kurių panaudiniai pozičijos gali būti įvairios ir paprasti dokumento šablonai gali nesuteikti paramos.

Paprastų išraiškų sąrašą rasite mūsų ComDesk.

PaperOffice Regex Beispielsammlung
Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

Kaip galiu suderinti reguliarų išraiškas?

Reguliarūs išraiškos gali būti suderintos skirtingais būdais, priklausomai nuo to, kokio tipo modelio ieškote.

Naudoti metakortežus, pavyzdžiui, ., *, +, ?, ^, $, [] ir [a-z], kad būtų nurodyti tam tikri tipai ar modeliai.

Naudokite pasirinktinus elementus: naudokite ?, ar * ženklus, kad dalis modelio būtų pasirenkama.

Naudokite grupes: Naudokite apvaliąsias skliaustus, kad dalis modelio grupuotųte ir ją lygintumėte kaip vienetą.

Būtina prisiminti, kad reguliarių išraiškų taisyklės gali skirtis priklausomai nuo programavimo kalbos, kuria naudojama. Todėl būtina perskaityti naudojamų įrankių dokumentaciją. PaperOffice sukurtiems Regex turi būti suderinami su ECMAScript ir PCRE2.

Patarimas

Renginys apie "Automatinį dokumentų ištrynimą / REGEX & kintamųjų / Sąskaitų apdorojimą automatiškai" yra taip pat YouTube vaizdo įrašas, kuriame šis procesas lengvai ir suprantamai paaiškintas:

Kaip išgauti informaciją iš mano dokumento naudojant REGEX?

Praktiniai pavyzdžiai

Šiame straipsnyje parodytume, kaip šablono išraiškos (REGEX) dėka galite išgauti bet kokius duomenis iš dokumento ir automatiškai priskirti juos dokumento raktažodžiams naudojant mezoninius reguliarius išrašus (REGEX) „PaperOffice“.

Pateikiame mūsų sukurto šablono dokumentą, kuriame yra nurodyta konkreti data. Šiame dokumente faktūra. Mūsų dokumente datos šablonas yra formatuotas taip:

PaperOffice Rechnung mit Regex zu auslesen
Informationen automatisiert aus Rechnungen extrahieren

Mėnuo sudarytas iš raidžių, bet visada pirmoji raide yra didžioji, paskui tarpas, po to dienos numeris, po kablelio kitas tarpas ir tada metai.

Pavyzdžiui: Sep 20, 2019 arba Mär 05, 2022


Norint išgauti šią datą, galime naudoti šią reguliariąją išraišką (REGEX):

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Leiskite mums padalinti išraišką į atskiras grupes. Šios grupės yra atskirtos paprastais skliaustais ().

Pirmoje grupėje ieškome trijų mėnesio raidžių: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Gauti mėnesį

  • [A-Z] Šis simbolių rinkinys reiškia, kad ieškome didžiosios raidės nuo A iki Z. Pavyzdžiui raidę „S“Sept. Atkreipkite dėmesį, kad didžiosios ir mažosios raidės traktuojamos atskirai.
  • [a-zä]{2} Šis simbolių rinkinys reiškia, kad ieškome dviejų mažųjų raidžių nuo a iki z ir taip pat ä (vokiško mėnesio pavadinimo „März“ atveju). Tai būtų ep iš „Sep“ arba är iš vokiško „Mär“.

Toliau ieškome tarpelio „\s“.

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Gauti dienos numerį

Antrame grupėje ieškoma dienos numerio skaitmenų: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Dienos numeris turi būti atskirtas trijų skirtingų instrukcijų.
Kadangi mes nežinome, kokios datos eilutė gali būti dokumente, gali būti pirmoji mėnesio diena (01) arba paskutinė mėnesio diena (31), reikia nurodyti kelias skirtingas galimybes.
Šios galimybės skiriamos su simboliu „|“.
Pavyzdys: (1|2|3) = 1 arba 2 arba 3

Laužtinėse skliaustose yra simbolių eilutė, leidžiančių simbolius. Daugelio laužtinių skliaustų atitinkamai labiau simbolius. Jei išraiška apibūdina kelis simbolius, juos paprasčiausiai galima pridėti vienas po kito. Tada įvestis palyginama su išraiška iš kairės į dešinę.

Žinoma, visiems skačiams nebūtina visada pateikti. Iš esmės visa apkrauta išraša rodo tik vieną simbolį.

  • 0[1-9] Šis simbolių rinkinys reiškia, kad skaičius gali prasidėti nuo „0“, po kurio gali būti skaičius nuo 1 iki 9. Taigi gausime bet kokį skaičių nuo 1 iki 09.
  • Simbolių eilutė ieško skaičiaus modelio, kuris prasideda nuliu. Jei jūsų dokumente įprastinės datos (2022 m. Kovas) yra atsakyta į datos pateikimą „5-asis kovas 2022“, kitaip tariant, be to, kad „5“ skaičiaus prieš „0“ nebūtų„, tada „0“ bus pašalinta iš simbolių eilutės.

  • [12][0-9] Ši simbolių eilutė reiškia, kad skaičius gali prasidėti nuo „1“ arba „2“, po to bet koks skaičius nuo 0 iki 9. Rezultatas gali būti bet koks skaičius nuo 10 iki 29.
  • 3[01] Ši simbolių eilutė reiškia, kad skaičius gali prasidėti nuo „

Pažymių numeris perskaitytas naudojant REGEX

Kaip kitą pavyzdį norime iš dokumento perskaityti pažymių numerį.

Mūsų dokumente pažymių numeris yra šiai pavyzdžiu:

Visuomet prasideda didžiosiomis raidėmis XYB, sekanti yra brūkšnelis, po to seką standartinis aštuonių skaitmenų numeris, vėl brūkšnelis ir paskutinės trys bet koks didžiosios raidės.

Pavyzdiniai pažymių numeriai yra:

XYB-12316723-LSH

XYB-98456723-JRD

Tam, kad perskaitytumėme šį pažymių numerį, galime naudoti šiuos reguliarios išraiškos kodą:

XYB-\d{8}-[A-Z]{3}

Pasižiūrėkime į išraišką žingsnis po žingsnio.

Pirmiausia norime gauti tik tris didžiųjų raidžių grupę kartu su brūkšneliu: XYB-

XYB-\d{8}-[A-Z]{3}

Po to ieškoma aštuonių skaitmenų grupė kartu su brūkšneliu: \d{8}-

XYB-\d{8}-[A-Z]{3}

Simbolis \d, kaip jau aprašėme, reiškia skaitmenį nuo nulio iki devynių, tada simbolis \d{8} ieško aštuoniaskaitės numerio grupės.

Galiausiai ieškoma trijų bet kokių didžiųjų raidžių: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Šis būdas atpažintų dviejų numerių pavyzdžius:

XYB-12316723-LSH

XYB-98456723-JRD

nuo šių keturių numerių:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

Mūsų paruoštas nuoroda į regularią išraišką, kuris atitinka šiuos keturis numerius. Matysite, jog tik du iš keturių numerių atitinka mūsų pateiktus reikalavimus.

Straipsnių numeriai išskaitomi REGEX pagalba

Straipsnio numeris mūsų dokumente yra šiai pavyzdžiu:

Visada prasideda dviem didžiosiomis raidėmis, po jų yra brūkšnelis, po to žymimas šešių skaitmenų kodavimas.

PaperOffice Rechnung mit Regex zu auslesen
Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

Pavyzdiniai straipsnių numeriai yra:

MS-863398

DS-452829

Tam, kad išskaitumėte sakinį, galime naudoti šiuos reguliarios išraiškos kodą:

[A-Z]{2}-\d{6}

„PaperOffice“ gali digitalizuoti dokumentus ir integruoti juos į jūsų sistemas, kad būtų galima automatizuoti duomenų ištraukimą iš sąskaitų ir kitų dokumentų, nereikia rašyti daugybės kodų ir juos popritemniuoti.

Kreipkitės į mus, kad aptartume jūsų taikymo atvejus ir daugiau sužinotumėte apie tai, kaip „PaperOffice“ gali jums padėti tapti konkurencingesniems sklaidos amžiuje.

Pradėti labai paprasta.

Ar jūs vis dar abejojate, kad sugebėsite? Paskaitykite savo klientų sėkmės istorijas apie tai, kaip „PaperOffice“ įdarbinti į jūsų verslo gyvenimą ir įsitikinkite patys apie jo paprastumą arba paprašykite testinės diegimo versijos.

FAQs

Galų gale, mes atsakome į keletą dažnai užduodamų klausimų šiuo klausimu. "Naudokite reguliarius išraiškas REGEX automatiniam duomenų kaupimui ir išgavimui (2 dalis)":

Kam skirtas be popieriaus biuras?

Greitas ir paprastas atsakymas į šį klausimą yra: kiekvienai įmonei. Be popieriaus biuro naudos gauna visos verslo šakos ir dydžiai, nuo smulkiųjų ir vidutinių įmonių iki startuolių ir didelių įmonių. Ypač vertingas yra perėjimas mažoms ir vidutinėms įmonėms: sumažinus darbo laiko sąnaudas ir išlaidas, išlaisvinamas biudžetas reikalingoms augimo skatinimo priemonėms.

Ar galiu naudoti debesų DMS tiekiklį savo debesiniame biure?

Ne. Dar vienas veiksnys, kuris tapo svarbus nuo pat DSGVO įsigaliojimo 2018 m., yra duomenų apsauga. DMS sprendimai ir programinė įranga naudojami dokumentų apdorojimui, valdymui ir saugojimui, kuriuose dažnai yra jautrūs, asmeniniai duomenys. Pažeidus DSGVO, teisėgyno nustatyti didelius baudos mokestius.

Išvados

  • Privalumai pagrindžia pastangas ir išlaidas

    Darbui su dokumentais skaitmenizuojant ir senesniuose dokumentuose pritaikant naujus laikus tai bus geriausias raktas sutaupyti labai daug laiko, pinigų ir nervų.

  • Reikalingas specialistas, kuris tai supranta

    Jums nereikia turėti IT specialisto tam, kad galėtumėte pasinaudoti visais digitalizacijos privalumais.
    Jūsų reikia teisingo partnerio, kuris, turėdamas patirties, gali įgyvendinti tai, ko jums reikia. Venkite panikos kuriančių ir išbandykite vietoje to, kad pasikliautumėte brangiais PowerPoint pristatymais, kurių iš tiesų nebandėte.

  • Aparatura paprastai jau yra

    Pagrįsta patirtimi, beveik kiekviena įmonė ir organizacija turi didelį kopijavimo aparatą, kuriam neprisidengiant ne kiekvieną dieną yra naudojamas visas jo potėvis. Šie įrenginiai mėgsta didelę veiklos mastelį, toleruoja spyras ir gali būti pagrindas skenerių investicijos nereikalaujančiam pradėjimui.

  • Pigiau nei tikėtasi su tinkamu DMS

    Išvengite mokėtinos paslaugos su DMS / ECM sistemomis, kuriose esate visiškai priklausomi nuo tiekėjų. Netaupykite dėl savo administravimo galimybių, pvz., patys mokyti dokumentus ir nustatyti parametrus. Jei reikia pagalbos, gamintojas mielai padės, tačiau išliekite nepriklausomas.

  • Skaitmeninė automatika yra ateitis

    Procesai ateityje visiškai be klaidų, tačiau visiškai automatizuoti.
    Gavote sąskaitą? Darbo eiga pradeda veikti ir viskas eina savo nustatyta kryptimi.
    Ieškote visų 1000 aplankų? Nėra problema, juk jūs turite savo Google!

PaperOffice išsprendžia visus problemas: Garantuotai.

Atvejo analizė

Skaitmeniniai pokyčiai grotelių pramonėje - sėkmingas dokumentų valdymas

"Grotelių industrijoje skaitmenizacijos tema tampa vis labiau pastebima. Tai taikoma, pavyzdžiui, mūsų pristatymo pastaboms, dalių sąrašams arba mūsų planams, brėžiniams ir konfigūratoriams. Įvedus "PaperOffice" DMS, rankinės pastangos galėtų būti sumažintos. Dabar esame pionieriai kaip skaitmeninių grotelių gamintojas."

Stephan Reichel
"K60 Gitterrostsysteme GmbH & Co.KG" generalinis direktorius