Naudokite reguliarius išraiškas REGEX automatiniam duomenų kaupimui ir išgavimui (2 dalis)
Aukščiausios galimos nuolaidos pasiūlymai
Išskirtinė vidinės naujienos.
Nemokamos papildomos naujinimo versijos
Aukščiausios galimos nuolaidos pasiūlymai
Išskirtinė vidinės naujienos.
Nemokamos papildomos naujinimo versijos
Draugystė Pasitikėjimas Žodis Garbė
Mes niekada nepateiksime jūsų el. pašto adreso niekam kitam, ir kiekvienas el. paštas bus su vienklikio atsisakymo nuoroda.
Dabartiniame straipsnyje mes jums parodysime, kaip naudoti reguliarius išraiškas, kad galėtumėte pasinaudoti automatizuotos dokumentų apdorojimo naudomis. Tai ypač taikoma visų pramonės šakų įmonių dokumentams.
Mes parodysime jums tiksliais reguliarių išraiškų pavyzdžiais ir paeiliui paaiškinsime, ką tai reiškia ir kaip jūs galite jas naudoti.
Taip jūs galite padidinti savo veiklos efektyvumą, mažinant klaidas, didinant tikslumą, mažinant sąnaudas, išlaikant duomenų vientisumą ir gerinant duomenų saugumą.
Šis straipsnis yra papildymas prieš tai buvo publikuoto straipsnio apie išmanųjį dokumentų apdorojimą, čia galite tiesiogiai pereiti prie straipsnio.
Tam tikrų duomenų elementų ištraukimas iš dokumentų gali būti itin brangus ir laiko išteklius reikalaujantis uždavinys. Dažnai dokumento skenavimus siunčiami didelioms paslaugų vidaus duomenų įmonėms, kur vyksta rankinė duomenų įvedimas.
Tačiau šiam procesui yra kelios trūkumai:
Taip pat yra daug kitų trūkumų.
Nepaisant skenavimo plitimo, didžioji bendrovių sandorių dalis vis dar remiasi popieriniais dokumentais. Apie 85% sąskaitų išduodamos popieriuje.
Be to, yra labai daug turimų popierių, kurie turi būti saugomi dideliuose sandėliuose!
Reguliarūs išraiškos, žinomos ir kaip "Regex", yra galingas įrankis, skirtas ieškoti ir keisti tekstus. Jie leidžia aptikti ir tvarkyti sudėtingus šablonus tekste.
Reguliarūs išraiškos susideda iš įprastų raidžių kombinacijos ir specialių metakortežų, turinčių specifines funkcijas.
Reguliarūs išreiškiai taip pat gali būti naudojami tekste keisti ar manipuliuoti. Pavyzdžiui, reguliariuoju išraiška galima atlikti šiuos uždavinius:
Jie yra labai galingas įrankis tekstų apdorojimui ir automatizavimui.
Digitale saugomų dokumentų, turinčių skirtingus tipus, skirtingus pavadinimo standartus ir neturinčius tinkamo paieškos sistemos, daugėjimas apsunkina paieškos procesą ir yra susijęs su tekstinių dokumentų informacijos išgavimo skaičiavimo. Ypač retai rustelėti, kai tai nėra susiję su klasifikuotais dokumentais.
Taigi norint atliekant paramos funkcijų rezultatas iš literos surasti ir išskirti duomenis iš dokumento. Reguliarūs išraiška yra būdas nubraižyti modelius informacijoje naudojant specifines simbolikos raides.
Reguliariausios iškelimo metodai geriausiai tinka dokumentams, kurių panaudiniai pozičijos gali būti įvairios ir paprasti dokumento šablonai gali nesuteikti paramos.
Paprastų išraiškų sąrašą rasite mūsų ComDesk.
Reguliarūs išraiškos gali būti suderintos skirtingais būdais, priklausomai nuo to, kokio tipo modelio ieškote.
Naudoti metakortežus, pavyzdžiui, ., *, +, ?, ^, $, [] ir [a-z], kad būtų nurodyti tam tikri tipai ar modeliai.
Naudokite pasirinktinus elementus: naudokite ?, ar * ženklus, kad dalis modelio būtų pasirenkama.
Naudokite grupes: Naudokite apvaliąsias skliaustus, kad dalis modelio grupuotųte ir ją lygintumėte kaip vienetą.
Būtina prisiminti, kad reguliarių išraiškų taisyklės gali skirtis priklausomai nuo programavimo kalbos, kuria naudojama. Todėl būtina perskaityti naudojamų įrankių dokumentaciją. PaperOffice sukurtiems Regex turi būti suderinami su ECMAScript ir PCRE2.
Patarimas
Renginys apie "Automatinį dokumentų ištrynimą / REGEX & kintamųjų / Sąskaitų apdorojimą automatiškai" yra taip pat YouTube vaizdo įrašas, kuriame šis procesas lengvai ir suprantamai paaiškintas:
Šiame straipsnyje parodytume, kaip šablono išraiškos (REGEX) dėka galite išgauti bet kokius duomenis iš dokumento ir automatiškai priskirti juos dokumento raktažodžiams naudojant mezoninius reguliarius išrašus (REGEX) „PaperOffice“.
Pateikiame mūsų sukurto šablono dokumentą, kuriame yra nurodyta konkreti data. Šiame dokumente faktūra. Mūsų dokumente datos šablonas yra formatuotas taip:
Mėnuo sudarytas iš raidžių, bet visada pirmoji raide yra didžioji, paskui tarpas, po to dienos numeris, po kablelio kitas tarpas ir tada metai.
Pavyzdžiui: Sep 20, 2019 arba Mär 05, 2022
Norint išgauti šią datą, galime naudoti šią reguliariąją išraišką (REGEX):
Leiskite mums padalinti išraišką į atskiras grupes. Šios grupės yra atskirtos paprastais skliaustais ().
Pirmoje grupėje ieškome trijų mėnesio raidžių: ([A-Z][a-zä]{2})
Toliau ieškome tarpelio „\s“.
Antrame grupėje ieškoma dienos numerio skaitmenų: (0[1-9]|[12][0-9]|3[01])
Dienos numeris turi būti atskirtas trijų skirtingų instrukcijų.
Kadangi mes nežinome, kokios datos eilutė gali būti dokumente, gali būti pirmoji mėnesio diena (01) arba paskutinė mėnesio diena (31), reikia nurodyti kelias skirtingas galimybes.
Šios galimybės skiriamos su simboliu „|“.
Pavyzdys: (1|2|3) = 1 arba 2 arba 3
Laužtinėse skliaustose yra simbolių eilutė, leidžiančių simbolius. Daugelio laužtinių skliaustų atitinkamai labiau simbolius. Jei išraiška apibūdina kelis simbolius, juos paprasčiausiai galima pridėti vienas po kito. Tada įvestis palyginama su išraiška iš kairės į dešinę.
Žinoma, visiems skačiams nebūtina visada pateikti. Iš esmės visa apkrauta išraša rodo tik vieną simbolį.
Simbolių eilutė ieško skaičiaus modelio, kuris prasideda nuliu. Jei jūsų dokumente įprastinės datos (2022 m. Kovas) yra atsakyta į datos pateikimą „5-asis kovas 2022“, kitaip tariant, be to, kad „5“ skaičiaus prieš „0“ nebūtų„, tada „0“ bus pašalinta iš simbolių eilutės.
Kaip kitą pavyzdį norime iš dokumento perskaityti pažymių numerį.
Mūsų dokumente pažymių numeris yra šiai pavyzdžiu:
Visuomet prasideda didžiosiomis raidėmis XYB, sekanti yra brūkšnelis, po to seką standartinis aštuonių skaitmenų numeris, vėl brūkšnelis ir paskutinės trys bet koks didžiosios raidės.
Pavyzdiniai pažymių numeriai yra:
XYB-12316723-LSH
XYB-98456723-JRD
Tam, kad perskaitytumėme šį pažymių numerį, galime naudoti šiuos reguliarios išraiškos kodą:
Pasižiūrėkime į išraišką žingsnis po žingsnio.
Pirmiausia norime gauti tik tris didžiųjų raidžių grupę kartu su brūkšneliu: XYB-
Po to ieškoma aštuonių skaitmenų grupė kartu su brūkšneliu: \d{8}-
Simbolis \d, kaip jau aprašėme, reiškia skaitmenį nuo nulio iki devynių, tada simbolis \d{8} ieško aštuoniaskaitės numerio grupės.
Galiausiai ieškoma trijų bet kokių didžiųjų raidžių: [A-Z]{3}
Šis būdas atpažintų dviejų numerių pavyzdžius:
XYB-12316723-LSH
XYB-98456723-JRD
nuo šių keturių numerių:
XYB-12316723-LSH
XYB-98456723-JRD
XYB-975432671829
ZYB-12342176-ZHD
Mūsų paruoštas nuoroda į regularią išraišką, kuris atitinka šiuos keturis numerius. Matysite, jog tik du iš keturių numerių atitinka mūsų pateiktus reikalavimus.
Straipsnio numeris mūsų dokumente yra šiai pavyzdžiu:
Visada prasideda dviem didžiosiomis raidėmis, po jų yra brūkšnelis, po to žymimas šešių skaitmenų kodavimas.
Pavyzdiniai straipsnių numeriai yra:
MS-863398
DS-452829
Tam, kad išskaitumėte sakinį, galime naudoti šiuos reguliarios išraiškos kodą:
„PaperOffice“ gali digitalizuoti dokumentus ir integruoti juos į jūsų sistemas, kad būtų galima automatizuoti duomenų ištraukimą iš sąskaitų ir kitų dokumentų, nereikia rašyti daugybės kodų ir juos popritemniuoti.
Kreipkitės į mus, kad aptartume jūsų taikymo atvejus ir daugiau sužinotumėte apie tai, kaip „PaperOffice“ gali jums padėti tapti konkurencingesniems sklaidos amžiuje.
Pradėti labai paprasta.
Ar jūs vis dar abejojate, kad sugebėsite? Paskaitykite savo klientų sėkmės istorijas apie tai, kaip „PaperOffice“ įdarbinti į jūsų verslo gyvenimą ir įsitikinkite patys apie jo paprastumą arba paprašykite testinės diegimo versijos.
ERROR: LID-5759 missing
ERROR: LID-6036 missing
ERROR: LID-6035 missing
ERROR: LID-5763 missing
ERROR: LID-6039 missing
ERROR: LID-6035 missing
ERROR: LID-5756 missing
ERROR: LID-6042 missing
ERROR: LID-5803 missing
ERROR: LID-5793 missing
ERROR: LID-6069 missing
ERROR: LID-6070 missing
ERROR: LID-5787 missing
ERROR: LID-6072 missing
ERROR: LID-6035 missing
ERROR: LID-5789 missing
ERROR: LID-6077 missing
ERROR: LID-6070 missing
ERROR: LID-6074 missing
ERROR: LID-5771 missing
ERROR: LID-6075 missing
ERROR: LID-6035 missing
ERROR: LID-5777 missing
ERROR: LID-5759 missing
ERROR: LID-5763 missing
ERROR: LID-5800 missing
ERROR: LID-5769 missing
ERROR: LID-6082 missing
ERROR: LID-6083 missing