PaperOffice Insider Newsletter
PaperOffice Insider Newsletter
Zelimo postati prijatelji

Najviše moguće ponude za popust.

Exkluzivne unutrašnje vesti

Besplatna nadogradnja bonustnih opcija

Najviše moguće ponude za popust.

Exkluzivne unutrašnje vesti

Besplatna nadogradnja bonustnih opcija

Prijateljstvo Poverenje Reč časti
Nikada nećemo davati vašu email adresu drugim osobama i svaki email sadrži link za jedan klik za odjavu.

Pravilno izvodite inteligentnu obradu dokumenata


Savet stručnjaka

Аутоматизовано сабирање података са регуларним изразима: Како ефикасно обрадити велике количине података користећи регуларне изразе.


Кључ за аутоматско сабирање и екстраховање података.
У текућем чланку показати ћемо вам како можете користити регуларне изразе да бисте уживали у предностима аутоматизоване обраде докумената. Ово је посебно важно за документе компанија из свих индустрија.

Приказаћемо вам тачне примере регуларних израза и објаснити корак по корак шта они значе и како их можете користити.

На овај начин можете повећати пословну ефикасност, смањити људске грешке путем веће тачности, смањити тренутне трошкове, чувати целовитост података и побољшати безбедност података.

Овај тренутни чланак проширује први део о интелигентној обради докумената, овде можете приступити изрено чланку.

Издвајање одређених елемената података из докумената може бити врло скупо и временски захтевно. Често се скенирају документи и шаљу на велике компаније за обраду података укољењем, где се подаци ручно уносе.

Међутим, овај приступ има неколико недостатака, као што су:

  • Безбедност документа може бити угрожена
  • Унесен је касни аутоматски поступак у радне процесе
  • Ручно индексирање је спор процес у поређењу са аутоматским извлачењем
  • Ручно индексирање није лако скалабилно за велике пројекте
  • Ручно индексирање може унети грешке у податке
  • Ако се документ промени, цео процес се мора поново покренути

Као и многи други.

Усред ширења скенирања, већи део пословних трансакција и даље се заснива на папирним документима. Приближно 85% рачуна још увек се шаље на папиру.

Такође постоји гомила папира која мора бити чувана у огромним складиштима!

Шта је регуларни израз?

Регуларни изрази, такође познати као "Regex", су моћан алат за претрагу и манипулацију текстом. Омогућавају препознавање и мењање комплексних образаца у тексту.

Регуларни израз састоји се од комбинације обичних слова и посебних мета-карактера који имају посебне функције.

Регуларни изрази могу се користити и за замену или манипулацију текста. На пример, регуларни израз може се користити.

Они су веома моћан алат за обраду текста и аутоматизацију задатака.

Како регуларни изрази могу помоћи аутоматизацији компаније?

Повећање дигиталних докумената са различитим типовима, различитим правилима назива и недостатком система претраге усложњава процес претраге и извлачења информација из докумената о одређеним садржајима, посебно када су у питању некласификовани документи, претрага је нетачна и дуготрајна.

Регуларни изрази (Regex) пружају брз и моћан начин претраживања, извођења и замене одређених података у документима. Регуларни изрази су у основи специјални низови карактера који описују обрасце претраге.

На овај начин се претражује и извлачи садржај документа након дефинисаног низа карактера.Регуларни изрази су начин да се дефинишу обрасци у информацијама помоћу специјалних симбола.

Метода регуларних израза најбоље се примењује на документе чији се положаји вредности које треба извући могу варирати и једноставне обрасце документа не могу успети.

Списак једноставних израза можете пронаћи на нашем ComDesk.

PaperOffice Regex Beispielsammlung
Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

Како могу направити регуларни израз?

Регуларни изрази могу се склапати на различите начине, у зависности од типа обрасца који се претражује.

Користе мета-карактери као што су ., *, +, ?, ^, $, [] и [a-z], да би представили одређене типове карактера или образац.

Користе опционалне делове: Користите знаке питања (?) или звездицу (*), да би делови обрасца били опционални.

Користе групе: Користите заграде да би груписали делове обрасца и третирали их као јединицу.

Важно је напоменути да правила за регуларне изразе могу варирати од језика до језика програмирања. Стога је битно прочитати документацију о коришћеним алатима. Регуларни изрази написани за PaperOffice морају бити компатибилни са ECMAScript и PCRE2.

Савет

На YouTube-у такође постоји видео које једноставно и разумљиво објашњава поступак аутоматског архивирања / регуларних израза и променљивих / автоматско обрада рачуна:

Sadržaj

Как извлечь информацию из моего документа с помощью REGEX?

Практические примеры

В текущей статье мы продемонстрируем вам, как с помощью многоэлементных регулярных выражений в PaperOffice можно извлечь любые данные из документа и автоматически обозначить их в качестве метаданных документа.

Далее мы создали образец документа, который содержит определенную дату. В этом документе представлен счет. Образец даты в нашем документе отформатирован следующим образом:

PaperOffice Rechnung mit Regex zu auslesen
Informationen automatisiert aus Rechnungen extrahieren

Месяц, состоящий из букв, при этом первая буква всегда заглавная, затем следует пробел, далее день, затем запятая, еще один пробел и год.

Например: Sep 20, 2019 или Mär 05, 2022


Чтобы извлечь эту дату, мы можем использовать следующее регулярное выражение (REGEX):

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Разберем выражение на отдельные группы. Эти группы разделяются простыми скобками ().

В первой группе мы ищем 3 буквы месяца: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Извлечение указания месяца

  • [A-Z] Эта строка означает, что мы ищем заглавную букву от A до Z. Например, буква “S” из “Sept”. Обратите внимание, что регистр заглавных и строчных букв различается.
  • [a-zä]{2} Эта строка означает, что мы ищем две строчные буквы от a до z и также ä (для немецкого названия месяца “März”). Это будет ep из “Sep” или är из “Mär”.

Затем мы ищем пробел с этой последовательностью: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Извлечение указания дня

Во второй группе мы ищем обозначение дня в цифрах: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Указание дня должно быть разделено тремя различными инструкциями.
Так как мы не знаем, какая дата может появиться в документе, может быть указан первый день (01) или последний день (31) месяца, поэтому должны быть указаны различные варианты.
Они разделяются символом “|”.
Пример: (1|2|3) = 1 или 2 или 3.

Угловые скобки содержат перечисление допустимых символов. Несколько квадратных скобок соответствуют множеству символов.Если выражение должно описывать несколько символов, они просто объединяются друг за другом. Затем ввод сравнивается с вашим выражением слева направо.

Конечно же, не все числа всегда должны быть перечислены. Весь заключенный в скобки фрагмент означает только один символ.

  • 0[1-9] Эта строка означает, что число может начинаться с “0”, за которым следует число от 1 до 9. Получается любое число от 01 до 09.
  • Данная строка ищет числовой шаблон, который начинается с нуля. Если ваш документ обычно содержит дату “5 марта 2022 г.”, то без префиксной “0” перед числом “5” в строке этот префиксный “0” не будет указан.

  • [12][0-9] Эта строка означает, что число может начинаться с “1” или “2”, за которым следует любое число от 0 до 9. В результате может получиться любое число от 10 до 29.
  • 3[01] Эта строка означает, что число может начинаться с “3”, за которым следует “0” или “1”. В результате может получиться 30 или 31.

После определения вариантов для дня следует определить выражение для года.

Теперь мы ищем запятую и пробел: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Извлечение указания года

В последней группе мы ищем год: (20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12

Издвајање броја на налогу користећи РЕГЕКС

Као још један пример, желели бисмо да издвојимо број налога из документа.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Auftragsnummern werden aus dem Dokument extrahiert

Број налога на нашем документу има следећи формат:

Увек започиње главним словима XYB, затим следи цртица, затим 8 цифара, још једна цртица и на крају 3 случајна главна слова.

Примери бројева налога били би:

XYB-12316723-LSH

XYB-98456723-JRD

За издвајање овог броја налога, можемо користити следећи регуларни израз:

XYB-\d{8}-[A-Z]{3}

Дозволите нам да разбијемо израз на делове.

Прво тражимо прецизно првих 3 главна слова са свестраним симболом: XYB-

XYB-\d{8}-[A-Z]{3}

Затим тражимо 8 цифара, за њима још једна цртица: \d{8}-

XYB-\d{8}-[A-Z]{3}

Знак \d, као што је већ описано, представља цифру између 0 и 9, поново знак \d{8} тражи дигит из осам цифара.

На крају тражимо 3 произвољна главна слова: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

На овај начин би PaperOffice издвајао следеће бројеве налога:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

приметио bi XYB-12316723-LSH и XYB-98456723-JRD од ових бројева налога

.

Припремили смо ланк на Regex101 за овај пример, где су наведени регуларни израз и четири примера. Видићете да само два од наведених бројева доспевају у наше захтеве.

Издвајање броја артикла помоћу РЕГЕКСа

Број артикла на нашем документу форматиран је на следећи начин:

Увек започиње са два главна слова, затим следи цртица, за њима је 6 цифара.

PaperOffice Rechnung mit Regex zu auslesen
Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

Примери бројева артикла били би:

MS-863398

DS-452829

За издвајање ових бројева артикла можемо користити следећи регуларни израз:

[A-Z]{2}-\d{6}

PaperOffice може дигитализовати ваше документе и интегрисати их у ваше системе како би аутоматизовао екстракцију података са рачуна и других документа, без писања и одржавања бескрајних кодова.

Контактирајте нас да разговарамо о вашим случајевима употребе и да сазнање како PaperOffice може помоћи да останете конкурентни у дигиталном добућ.

Почне преваљивати лакше него што мислите.

Да ли се и даље бојите да не можете успети? Прочитајте студије случајева наших корисника о интеграцији PaperOffice у пословни живот и уверите се сами о њеној једноставности, или захтевате бесплатну инсталацију тестиранице.

FAQs

Konačno, odgovaramo na još nekoliko često postavljanih pitanja na temu. "Koristite regularne izraze REGEX za automatsko prikupljanje i ekstrakciju podataka (Deo 2)":

За кого је прилагођена безпапирна kанцеларија?

Брзо и једноставно питање је: за сваку компанију. Све индустријске и величине компанија, од ММС (мала и средња другација) преко почетних компанија до великих предузећа, могу да имају користи од безпапирне kанцеларије. Међутим, прелаз на безпапирну kанцеларију највреднији је за ММС то је: Смањујући време и трошаке обраде, буџет за побољшање растућих послова осободи.

Да ли могу да користим cloud-програм покаранице провајдера за дигитални ДМС провајдера у свом „безпапирном” офису?

Не. Још један фактор који се налази у устама, Како је постало јасно послезањима ГДПР-а, које су последњи пут улажавали 2018. године, јесте заштита података. ДМС решење и возачка сопствени кориснички садржеј, управљање и скупљање документације која често садржи осетљиве, личне податке. У случају кршења ГДПР, захтеви имају високе казне.

Zaključak

  • Предности оправдавају улагање и трошак

    Дигитални рад и претварање старих докумената у ново доба је најбоља инвестиција која ће убудуће штедети невероватно много времена, новца и нервозе.

  • Потребан вам је неко ко се разуме

    Вама неће бити потребан ИТ стручњак да бисте искористили све предности дигитализације.
    Оно што вам је потребно је прави партнер уз вас, који можете да се наслоните на његово искуство да бисте остварили ону ствар која вам је потребна. Избегавајте људе који изазивају панику и уместо тога радите тестирања, уместо да се само уживите у лепе PowerPoint презентације.

  • Већина хардвера је већ на располагању

    Искуство показује да сваки претпријатије, фирма или компанија већ има велики копир да није искористио свој потенцијал. Ови апарати воле велике скенове, толерантни су на спрајс, и могу користити као основа за дигитални почетак без улагања у скенере.

  • Јефтиније него што се очекује са правим DMS-om

    Избегавајте замке у вези DMS/ECM система, где сте потпуно под контролом произвођача. Не правите компромисе у вези ваших могућности управљања, као што је учитавање документа и постављање параметара. Ако вам је потребна помоћ, произвођач ће вам радо помоћи, али останите самостални и независни.

  • Дигитална аутоматизација је будућност

    Процеси ће се у будућности одвијати исто, али потпуно аутоматски.
    Дошла вам је фактура? Аутоматски ће се покренути радни циклус и све ће ићи према предхоно дефинисаном путу.
    Претраживање свих 1000 фиција? Није проблем, јер имате своју личну Google претрагу!

PaperOffice rešava svaki problem: Garantovano.

Студија случаја

Kako je IDC Construccion revolucijonalizovao upravljanje dokumentima u građevinskoj industriji sa PaperOffice DMS.