✅ Razumeti regularne izraze i koristiti ih na koristan nacin [NOVO]

У текућем чланку показати ћемо вам како можете користити регуларне изразе да бисте уживали у предностима аутоматизоване обраде докумената. Ово је посебно важно за документе компанија из свих индустрија.

Приказаћемо вам тачне примере регуларних израза и објаснити корак по корак шта они значе и како их можете користити.

На овај начин можете повећати пословну ефикасност, смањити људске грешке путем веће тачности, смањити тренутне трошкове, чувати целовитост података и побољшати безбедност података.

Овај тренутни чланак проширује први део о интелигентној обради докумената, овде можете приступити изрено чланку.

Издвајање одређених елемената података из докумената може бити врло скупо и временски захтевно. Често се скенирају документи и шаљу на велике компаније за обраду података укољењем, где се подаци ручно уносе.

Међутим, овај приступ има неколико недостатака, као што су:

Безбедност документа може бити угрожена
Унесен је касни аутоматски поступак у радне процесе
Ручно индексирање је спор процес у поређењу са аутоматским извлачењем
Ручно индексирање није лако скалабилно за велике пројекте
Ручно индексирање може унети грешке у податке
Ако се документ промени, цео процес се мора поново покренути

Као и многи други.

Усред ширења скенирања, већи део пословних трансакција и даље се заснива на папирним документима. Приближно 85% рачуна још увек се шаље на папиру.

Такође постоји гомила папира која мора бити чувана у огромним складиштима!

Шта је регуларни израз?

Регуларни изрази, такође познати као "Regex", су моћан алат за претрагу и манипулацију текстом. Омогућавају препознавање и мењање комплексних образаца у тексту.

Регуларни израз састоји се од комбинације обичних слова и посебних мета-карактера који имају посебне функције.

Регуларни изрази могу се користити и за замену или манипулацију текста. На пример, регуларни израз може се користити.

Они су веома моћан алат за обраду текста и аутоматизацију задатака.

Како регуларни изрази могу помоћи аутоматизацији компаније?

Повећање дигиталних докумената са различитим типовима, различитим правилима назива и недостатком система претраге усложњава процес претраге и извлачења информација из докумената о одређеним садржајима, посебно када су у питању некласификовани документи, претрага је нетачна и дуготрајна.

Регуларни изрази (Regex) пружају брз и моћан начин претраживања, извођења и замене одређених података у документима. Регуларни изрази су у основи специјални низови карактера који описују обрасце претраге.

На овај начин се претражује и извлачи садржај документа након дефинисаног низа карактера.Регуларни изрази су начин да се дефинишу обрасци у информацијама помоћу специјалних симбола.

Метода регуларних израза најбоље се примењује на документе чији се положаји вредности које треба извући могу варирати и једноставне обрасце документа не могу успети.

Списак једноставних израза можете пронаћи на нашем ComDesk.

Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

Како могу направити регуларни израз?

Регуларни изрази могу се склапати на различите начине, у зависности од типа обрасца који се претражује.

Користе мета-карактери као што су ., *, +, ?, ^, $, [] и [a-z], да би представили одређене типове карактера или образац.

Користе опционалне делове: Користите знаке питања (?) или звездицу (*), да би делови обрасца били опционални.

Користе групе: Користите заграде да би груписали делове обрасца и третирали их као јединицу.

Важно је напоменути да правила за регуларне изразе могу варирати од језика до језика програмирања. Стога је битно прочитати документацију о коришћеним алатима. Регуларни изрази написани за PaperOffice морају бити компатибилни са ECMAScript и PCRE2.

Савет

На YouTube-у такође постоји видео које једноставно и разумљиво објашњава поступак аутоматског архивирања / регуларних израза и променљивих / автоматско обрада рачуна:

Как извлечь информацию из моего документа с помощью REGEX?

Практические примеры

В текущей статье мы продемонстрируем вам, как с помощью многоэлементных регулярных выражений в PaperOffice можно извлечь любые данные из документа и автоматически обозначить их в качестве метаданных документа.

Далее мы создали образец документа, который содержит определенную дату. В этом документе представлен счет. Образец даты в нашем документе отформатирован следующим образом:

PaperOffice Rechnung mit Regex zu auslesen

Informationen automatisiert aus Rechnungen extrahieren

Месяц, состоящий из букв, при этом первая буква всегда заглавная, затем следует пробел, далее день, затем запятая, еще один пробел и год.

Например: Sep 20, 2019 или Mär 05, 2022

Чтобы извлечь эту дату, мы можем использовать следующее регулярное выражение (REGEX):

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Разберем выражение на отдельные группы. Эти группы разделяются простыми скобками ().

В первой группе мы ищем 3 буквы месяца: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Извлечение указания месяца

[A-Z] Эта строка означает, что мы ищем заглавную букву от A до Z. Например, буква “S” из “Sept”. Обратите внимание, что регистр заглавных и строчных букв различается.
[a-zä]{2} Эта строка означает, что мы ищем две строчные буквы от a до z и также ä (для немецкого названия месяца “März”). Это будет ep из “Sep” или är из “Mär”.

Затем мы ищем пробел с этой последовательностью: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Извлечение указания дня

Во второй группе мы ищем обозначение дня в цифрах: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Указание дня должно быть разделено тремя различными инструкциями.
Так как мы не знаем, какая дата может появиться в документе, может быть указан первый день (01) или последний день (31) месяца, поэтому должны быть указаны различные варианты.
Они разделяются символом “|”.
Пример: (1|2|3) = 1 или 2 или 3.

Угловые скобки содержат перечисление допустимых символов. Несколько квадратных скобок соответствуют множеству символов.Если выражение должно описывать несколько символов, они просто объединяются друг за другом. Затем ввод сравнивается с вашим выражением слева направо.

Конечно же, не все числа всегда должны быть перечислены. Весь заключенный в скобки фрагмент означает только один символ.

0[1-9] Эта строка означает, что число может начинаться с “0”, за которым следует число от 1 до 9. Получается любое число от 01 до 09.

Данная строка ищет числовой шаблон, который начинается с нуля. Если ваш документ обычно содержит дату “5 марта 2022 г.”, то без префиксной “0” перед числом “5” в строке этот префиксный “0” не будет указан.

[12][0-9] Эта строка означает, что число может начинаться с “1” или “2”, за которым следует любое число от 0 до 9. В результате может получиться любое число от 10 до 29.

3[01] Эта строка означает, что число может начинаться с “3”, за которым следует “0” или “1”. В результате может получиться 30 или 31.

После определения вариантов для дня следует определить выражение для года.

Теперь мы ищем запятую и пробел: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Извлечение указания года

В последней группе мы ищем год: (20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12

Издвајање броја на налогу користећи РЕГЕКС

Као још један пример, желели бисмо да издвојимо број налога из документа.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt

Auftragsnummern werden aus dem Dokument extrahiert

Број налога на нашем документу има следећи формат:

Увек започиње главним словима XYB, затим следи цртица, затим 8 цифара, још једна цртица и на крају 3 случајна главна слова.

Примери бројева налога били би:

XYB-12316723-LSH

XYB-98456723-JRD

За издвајање овог броја налога, можемо користити следећи регуларни израз:

XYB-\d{8}-[A-Z]{3}

Дозволите нам да разбијемо израз на делове.

Прво тражимо прецизно првих 3 главна слова са свестраним симболом: XYB-

XYB-\d{8}-[A-Z]{3}

Затим тражимо 8 цифара, за њима још једна цртица: \d{8}-

XYB-\d{8}-[A-Z]{3}

Знак \d, као што је већ описано, представља цифру између 0 и 9, поново знак \d{8} тражи дигит из осам цифара.

На крају тражимо 3 произвољна главна слова: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

На овај начин би PaperOffice издвајао следеће бројеве налога:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

приметио bi XYB-12316723-LSH и XYB-98456723-JRD од ових бројева налога

Припремили смо ланк на Regex101 за овај пример, где су наведени регуларни израз и четири примера. Видићете да само два од наведених бројева доспевају у наше захтеве.

Издвајање броја артикла помоћу РЕГЕКСа

Број артикла на нашем документу форматиран је на следећи начин:

Увек започиње са два главна слова, затим следи цртица, за њима је 6 цифара.

Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

Примери бројева артикла били би:

MS-863398

DS-452829

За издвајање ових бројева артикла можемо користити следећи регуларни израз:

[A-Z]{2}-\d{6}

PaperOffice може дигитализовати ваше документе и интегрисати их у ваше системе како би аутоматизовао екстракцију података са рачуна и других документа, без писања и одржавања бескрајних кодова.

Контактирајте нас да разговарамо о вашим случајевима употребе и да сазнање како PaperOffice може помоћи да останете конкурентни у дигиталном добућ.

Почне преваљивати лакше него што мислите.

Да ли се и даље бојите да не можете успети? Прочитајте студије случајева наших корисника о интеграцији PaperOffice у пословни живот и уверите се сами о њеној једноставности, или захтевате бесплатну инсталацију тестиранице.

Koristite regularne izraze REGEX za automatsko prikupljanje i ekstrakciju podataka (Deo 2)

Шта је регуларни израз?

Како регуларни изрази могу помоћи аутоматизацији компаније?

Како могу направити регуларни израз?

Как извлечь информацию из моего документа с помощью REGEX?

Практические примеры

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Извлечение указания месяца

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Извлечение указания дня

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Извлечение указания года

([A-Z][a-zä]{2})\s(0[1-9]|[12

Издвајање броја на налогу користећи РЕГЕКС

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Издвајање броја артикла помоћу РЕГЕКСа

[A-Z]{2}-\d{6}

ERROR: LID-5754 missing

ERROR: LID-5761 missing

ERROR: LID-5758 missing

ERROR: LID-5797 missing

ERROR: LID-5791 missing

ERROR: LID-5785 missing

ERROR: LID-5790 missing

ERROR: LID-5780 missing

ERROR: LID-5758 missing

ERROR: LID-5775 missing

ERROR: LID-6029 missing

ERROR: LID-5764 missing

ERROR: LID-5801 missing

ERROR: LID-5768 missing