PaperOffice Insiders Informācijas biļetens
PaperOffice Insiders Informācijas biļetens
Mēs vēlamies būt draugi

Vislielākā iespējamā atlaidi piedāvājumi

Ekskluzīvas iekšējās ziņas

Bezmaksas bonusa atjauninājumi

Vislielākā iespējamā atlaidi piedāvājumi

Ekskluzīvas iekšējās ziņas

Bezmaksas bonusa atjauninājumi

Draudzība Uzticība Godaprāts
Mēs nekad neparedzam nodot jūsu e-pasta adresi citiem un katrā e-pastā ir viena klikšķa at abonēšanas saites.

Veiciet pareizu inteligentu dokumentu apstrādi.


Profesionāla padoma

Automatizēta datu ievākšana ar regulārām izteiksmēm: kā efektīvi apstrādāt lielas datu apjomus, izmantojot regulāras izteiksmes.


Vidusceļš uz automatizētu datu ievākšanu un datu izguvi.
Aktuālajā rakstā parādām, kā izmantot regulārās izteiksmes, lai gūtu priekšrocības no automatizētas dokumentu apstrādes. Tas attiecas īpaši uz jebkuras nozīmes uzņēmuma dokumentiem. Mēs sniedzam konkrētus regulāru izteiksmju piemērus un soli pa solim izskaidrojam, ko tie nozīmē un kā tos var izmantot.Tādējādi jūs varat palielināt jūsu darbības efektivitāti, samazināt cilvēku kļūdas, palielināt datu integritāti un uzlabot datu drošību.Šis raksts papildina pirmo daļu par inteligento dokumentu apstrādi, pāriet uz rakstu šeit.Datu elementu konkrēts ieguves process no dokumentiem var būt ļoti dārgs un laika ņemīgs. Bieži vien dokumentu skenējumus nosūta uz lieliem datu ievadīšanas uzņēmumiem, kur dati tiek ievadīti manuāli.Tomēr šai pieejai ir vairāki trūkumi, piemēram:- Dokumentu drošība var tikt apdraudēta.- Workflow procesiem tiek ieviesta kavēšanās.- Salīdzinot ar automātisku ekstrakciju, manuālais indeksēšanas process ir lēns.- Manuāla indeksēšana nelabprāt skalē lielos projektos.- Manuālā indeksēšana var ieviest kļūdas datu.- Ja dokumentu modificē, visa process ir jāatkārto.Un tā tālāk.Neskatoties uz skenēšanas popularitāti, liela daļa biznesa transakciju joprojām balstās uz papīra dokumentiem. Ir aplēsts, ka 85% rēķinu tiek izrakstīti uz papīra.Turklāt ir milzīgi krājumi esošā papīra, kas jāglabā.Kas ir regulārā izteiksme?Regulārās izteiksmes, pazīstamas arī kā "Regex", ir spēcīgs rīks, lai meklētu un manipulētu ar tekstiem. Tās ļauj atpazīt un modificēt sarežģītus rakstzīmju virknes.Regulārai izteiksmei sastāv no parastiem burtiem un speciāliem metazīmēm, kuriem ir īpašas funkcijas.Regulārās izteiksmes var izmantot arī teksta aizstāšanai vai manipulēšanai. Piemēram, regulāru izteiksmi var izmantot, lai meklētu un aizstātu fragmentus tekstā.Tās ir ļoti spēcīgs rīks teksta apstrādei un uzdevumu automatizācijai.Kā regulārās izteiksmes var palīdzēt uzņēmumu automatizācijai?Palielinoties digitālo dokumentu daudzumam, ar dažādu veidu un bez pietiekama meklēšanas sistēmas, meklēšanas process un informācijas atlase no dokumentiem, jo īpaši neklasificētiem dokumentiem, kļūst sarežģīts un ilgstošs.Regulārās izteiksmes (Regex) ir ātrs un spēcīgs veids, kā meklēt, izvilkt un aizstāt specifiskus datus dokumentos. Regulārās izteiksmes ir īpaša tekstvirkne, kas apraksta meklēšanas paraugu.Tāpēc dokumenta saturs tiek meklēts un izvilks. Regulārās izteiksmes ir viens veids, kā definēt modelēšanas likumus informācijai, izmantojot īpašus simbolus.Regex metode ir vislabāk piemērojama dokumentiem, kur atlasīto vērtību atrašanās vietas var mainīties un vienkāršas dokumentu veidnes to nevar ietvert.Vienkāršu izteiksmju sarakstu skatiet mūsu ComDesk.Kā varu izveidot regulāras izteiksmes?Regulārās izteiksmes var veidot dažādos veidos atkarībā no tā, kāds veids meklēšanai ir nepieciešams.Lietot metazīmes, piemēram, ., *, +, ?, ^, $, [] un [a-z], lai attēlotu konkrētus rakstzīmes veidus vai paraugus.Izmantot opciju daļas, piemēram, izmantojiet jautājuma zīmi (?) vai zvaigznīti (*), lai daļas no parauga padarītu par izvēles.Utilize groupings: Izmantojiet apaļās iekavas, lai grupētu parauga daļas un tos rādītu kā vienu vienību.Svarīgi ir zināt, ka regulāro izteiksmju likumi var atšķirties atkarībā no programmu valodas. Tāpēc ir svarīgi izlasīt izmantoto rīku dokumentāciju. PaperOffice rakstītās Regex izteiksmes jābūt EMASCript un PCRE2 saderīgām.Skatiet arī YouTube video par "Automatizētu dokumentu KONTŠ / REGEX un mainīgie / Automātiska rēķinu apstrāde", kas paskaidro šo procesu viegli un saprotami.

Kā izvelkām informāciju no dokumenta ar REGEX?

Praktiskie piemēri

Šajā rakstā mēs jums demonstrēsim, kā, izmantojot simbolu virknes regulāro izteiksmju komandas, jūs varat izvilkt un automātiski pievienot dokumentam jebkādus datus kā virsrakstus PaperOffice.

Zemāk ir izveidots parauga dokuments ar specifisku datumu. Šajā dokumentā ir rēķins. Mūsu dokumentā datumam ir šāds formāts:

PaperOffice Rechnung mit Regex zu auslesen
Informationen automatisiert aus Rechnungen extrahieren

Mēnesis, kas sastāv no burtiem (pirmais burtu vienmēr ir lielais), tad seko atstarpe, tad diena (noderejot ar komatu), atkal atstarpe un pēc tam gads. Piemēram: Sep 20, 2019 vai Mär 05, 2022


Lai izvelk*tu šo datum, mēs varam izmantot šādu regulāro izteiksmi (REGEX):

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

ļaujiet mums nolasīt šo izteiksmi sīkākas grupas. Šīs grupas ir atdalītas ar ierastajām teksta iekavām ().

Pirmajā grupā mēs meklējam pēc 3 burtu mēneša. [A-Z][a-zä]{2}

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Mēneša informācijas izguve

  • [A-Z] Šī virkne nozīmē, ka mēs meklējam liela burta burtu sākot no A līdz Z. Piemēram, burts "S" vārdā Sept. Lielo un mazo burtu izšķiršana ir svarīga.
  • [a-zä]{2} Šī virkne nozīmē, ka mēs meklējam divus burtus no a līdz z, kā arī ä (piemēram, vārdā „März“ vāciski mēnesis). Tās būtu "ep" no "Sep" vai "är" no vāciskā vārda "Mär".

Seko atstarpe, pamatotreizējā teksta virkne: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Dienas informācijas izguve

Otrajā grupā mēs meklējam skaitļu dienu: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Dienas informācija ir jāsadala ar trim dažādām darbībām.
Tā kā mēs nezinām, kumu datumu izmantosiet, var tikt izmantotas iespējas ar pirmo dienu (01) vai pēdējo mēneša dienu (31), un atbilstoši jānorāda dažādi varianti.
Toši ir atdalīti ar simboliem "|".
Piemērs: (1 / 2 / 3) = 1 vai 2 vai 3.

Lauciņās ir norādīti pieļaujamie simboli, piemērojot it kā visa iekavā ievadīt*, kopumā visa izteiksme ietver tikai vienu simbolu.

Protams, vienmēr nav nepieciešams norādīt visus skaitļus. Bet visa klātbūtne garantē tikai vienu simbolu.

  • 0[1-9] Šī virkne nozīmē, ka skaitam varētu sākties ar "0", pēc tam seko simbols no 1 līdz 9. Tātad mums ir jebkura 01-09 numura kombinācija.
  • Virziens meklē skaitļa randi, kas sākas ar nulli. Ja jūsu dokuments parasti satur datumu „5. marts 2022.“, tas nozīmē, ka cipars "0" tekstā tiks izņemts.

  • [12][0-9] Šī virkne nozīmē, ka cipars var sākties ar 1 vai 2, pēc tam sekos jebkura no skaitļu kombinācijām no 0 līdz 9. Kā rezultātā jebkurš no 10-29 numuru rezultātus.
  • 3[01] Šī virkne nozīmē, ka cipars varētu sākties ar 3, pēc tam sekos 0 vai 1. Tas var atbilst 30 vai 31.

Pēc tam, kad dienas varianti ir noteikti, ir jānosaka izteiksmes gads.

Turpiniet meklēt komatu un atstarpi: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Gada informācijas izguve

Pēdējā grupā mēs meklējam gadu: (20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Mēs meklējam jebkuru gadu

Uzdevuma numura izvēles exempļa izlasīšana ar regex

Kā vēl vienu piemēru vēlamies izlasīt pasūtījuma numuru no dokumenta.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Auftragsnummern werden aus dem Dokument extrahiert

Pasūtījuma numurs mūsu dokumentā ir šādā formātā:

Tas vienmēr sākas ar lielajiem burtiem XYB, pēc tam seko domuzīmeti, seko 8 cipari, vēlviens domuzīme, un beigās 3 nejauši lielie burti.

Piemēri pasūtījuma numuriem ir:

XYB-12316723-LSH

XYB-98456723-JRD

Lai izvēlētos šo pasūtījuma numuru, varam izmantot sekojošu regulāro izteiksmi:

XYB-\d{8}-[A-Z]{3}

Izvērtēsim izteiksmi atsevišķi.

Sākumā meklējam tieši pirmos 3 lielos burtus, izmantojot domuzīmi: XYB-

XYB-\d{8}-[A-Z]{3}

Pēc tam meklējam 8 ciparus, kas seko pēc vēl viena domuzīmes: \d{8}-

XYB-\d{8}-[A-Z]{3}

Simbols \d, kā jau minēts, apzīmē ciparu no 0 līdz 9, turklāt \d{8} ir meklēšana pēc astoņu ciparu skaita.

Un beigās meklējam 3 jebkādus lielos burtus: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Tādējādi PaperOffice atpazītu šos pasūtījuma numurus:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

kā pirmos divus XYB-12316723-LSH un XYB-98456723-JRD

pamatoti.

Mēs esam sagatavojuši saiti uz Regex101 ar šo pašu norādīto regulāro izteiksmi un 4 piemēriem. Redzēsiet, ka tikai divi no dotajiem pasūtījuma numuriem atbilst mūsu prasībām.

Preču numuru izvēles exempļa izlasīšana ar regex

Preces numurs mūsu dokumentā ir šādā formātā:

Tas vienmēr sākas ar diviem lielajiem burtiem, pēc tam seko domuzīme, seko 6 cipari.

PaperOffice Rechnung mit Regex zu auslesen
Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

Piemēri preces numuriem ir:

MS-863398

DS-452829

Lai izvēlētos šos preces numurus, varam izmantot sekojošu regulāro izteiksmi:

[A-Z]{2}-\d{6}

PaperOffice var digitalizēt jūsu dokumentus un integrēt tos jūsu sistēmās, lai automatizētu datu ekstrakciju no rēķiniem un citiem dokumentiem, neierakstot un uzturot vairākus kodējumus.

Sazinieties ar mums, lai pārrunātu jūsu lietojumprogrammu gadījumus un uzzinātu vairāk par to, kā PaperOffice var palīdzēt jums palielināt konkurētspēju digitālajā laikmetā.

Sākt ir vieglāk, nekā jums šķiet.

Vai jums joprojām ir šaubas, ka jūs to nesatversit? Izlasiet mūsu klientu sīkās lietas klientu stāstos par PaperOffice integrēšanu savā uzņēmējdarbības dzīvē un pārliecinieties paši par vienkāršību, vai vienkārši pieprasiet testēšanas instalāciju.

FAQs

Beidzot, mēs atbildam uz vēl dažiem bieži uzdotiem jautājumiem par šo tematu. "Izmantojot regulārās izteiksmes REGEX automātiskai datu iegūšanai un izguvei (2. daļa)":

Kam ir papīra darba vajadzīga biroja vietā?

Ātra un viegla atbilde uz šo jautājumu ir: jebkurai uzņēmējdarbības nozarei. Katrs uzņēmums, sākot no mazajiem un vidējiem uzņēmumiem līdz pat jaunuzņēmumiem un lieliem uzņēmumiem, gūs labumu no papīra darba biroja. Īpaši noderīga pāreja būs mazajiem un vidējiem uzņēmumiem: Samazinot apstrādes un izmaksu slogu, pieejama budžeta nauda tiek izvadīta citiem izaugsmes paātrinātājiem.

Vai man var izmantot cloud-based DMS pakalpojumu sniedzēju uzņēmuma papīra darba birojam?

Nē. Vēl viens faktors, kas ir ļoti aktuāls kopš 2018. gada, kad oficiāli stājās spēkā GDPR, ir datu aizsardzība. DMS risinājumi un DMS programmatūra tiek izmantota dokumentu apstrādei, pārvaldībai un uzglabāšanai, kas bieži satur jutīgus, personu attiecināmus datus. Pārkāpjot GDPR, likumdevējs paredz augstus soda naudas sodus.

Secinājums

  • Priekšrocības attaisno izmaksas un izstrādes izmaksas

    Strādājot digitāli un pārveidojot vecos dokumentus jaunajā laikmetā, tas būs labākā galvenā ieguldījums, lai nākotnē ietaupītu neizsakāmi daudz laika, naudas un nervus.

  • Jums vajag kādu, kas to prot

    Jums nav nepieciešams pašam būt IT speciālistam, lai gūtu visus digitalizācijas priekšrocības.
    Tas, kas jums vajag, ir pareizais partneris, kas pēc pieredzes var īstenot to, kas jums ir nepieciešams. Izmantojiet testēšanu, nevis izdomātu prezentāciju ar lieliskām PowerPoint slaidrādēm.

  • Lietuviem parasti ir jau pieejams aparāts

  • Lētāks nekā gaidīts ar pareizo dokumentu pārvaldības sistēmu

    Izvairieties no dokumentu pārvaldības / ECM sistēmu izmaksu slazdiem, kurās esat nežēlīgi atkarīgs no ražotājiem. Nepieņemiet kompromisus attiecībā uz pašu administrācijas iespējām, piemēram, dokumentu pašu mācīšanās un iestatījumu veikšana. Ja jums vajadzīga palīdzība, ražotājs jums var palīdzēt, bet jūs palieciet pašpietiekams un neatkarīgs.

  • Digitāla automatizācija ir nākotne

    Apmeklējums ienāk? Darbplūsma tiek izraisīta, un viss iet ​​pa vienai no iepriekš definētajiem ceļiem.
    Vai jums jāmeklē 1000 mape? Nav problēmu, jo jums ir savs Google!

PaperOffice atrisina jebkuru problēmu: garantēti.

Gadījuma pētījums

Patriarhijas digitālais ceļš ar PaperOffice DMS

"Mēs esam priecīgi pēc pusotra gada darba, un tomēr mēs vēl neesam pilnībā izmantojuši šo fantastisko šedevru."

Pedro Silva
Lisabonas patriarhāta administratīvais palīgs