Koristite regularne izraze REGEX za automatsko prikupljanje i ekstrakciju podataka (Deo 2)
Najviše moguće ponude za popust.
Exkluzivne unutrašnje vesti
Besplatna nadogradnja bonustnih opcija
Najviše moguće ponude za popust.
Exkluzivne unutrašnje vesti
Besplatna nadogradnja bonustnih opcija
Prijateljstvo Poverenje Reč časti
Nikada nećemo davati vašu email adresu drugim osobama i svaki email sadrži link za jedan klik za odjavu.
Приказаћемо вам тачне примере регуларних израза и објаснити корак по корак шта они значе и како их можете користити.
На овај начин можете повећати пословну ефикасност, смањити људске грешке путем веће тачности, смањити тренутне трошкове, чувати целовитост података и побољшати безбедност података.
Овај тренутни чланак проширује први део о интелигентној обради докумената, овде можете приступити изрено чланку.
Издвајање одређених елемената података из докумената може бити врло скупо и временски захтевно. Често се скенирају документи и шаљу на велике компаније за обраду података укољењем, где се подаци ручно уносе.
Међутим, овај приступ има неколико недостатака, као што су:
Као и многи други.
Усред ширења скенирања, већи део пословних трансакција и даље се заснива на папирним документима. Приближно 85% рачуна још увек се шаље на папиру.
Такође постоји гомила папира која мора бити чувана у огромним складиштима!
Регуларни изрази, такође познати као "Regex", су моћан алат за претрагу и манипулацију текстом. Омогућавају препознавање и мењање комплексних образаца у тексту.
Регуларни израз састоји се од комбинације обичних слова и посебних мета-карактера који имају посебне функције.
Регуларни изрази могу се користити и за замену или манипулацију текста. На пример, регуларни израз може се користити.
Они су веома моћан алат за обраду текста и аутоматизацију задатака.
Повећање дигиталних докумената са различитим типовима, различитим правилима назива и недостатком система претраге усложњава процес претраге и извлачења информација из докумената о одређеним садржајима, посебно када су у питању некласификовани документи, претрага је нетачна и дуготрајна.
На овај начин се претражује и извлачи садржај документа након дефинисаног низа карактера.Регуларни изрази су начин да се дефинишу обрасци у информацијама помоћу специјалних симбола.
Метода регуларних израза најбоље се примењује на документе чији се положаји вредности које треба извући могу варирати и једноставне обрасце документа не могу успети.
Списак једноставних израза можете пронаћи на нашем ComDesk.
Регуларни изрази могу се склапати на различите начине, у зависности од типа обрасца који се претражује.
Користе мета-карактери као што су ., *, +, ?, ^, $, [] и [a-z], да би представили одређене типове карактера или образац.
Користе опционалне делове: Користите знаке питања (?) или звездицу (*), да би делови обрасца били опционални.
Користе групе: Користите заграде да би груписали делове обрасца и третирали их као јединицу.
Важно је напоменути да правила за регуларне изразе могу варирати од језика до језика програмирања. Стога је битно прочитати документацију о коришћеним алатима. Регуларни изрази написани за PaperOffice морају бити компатибилни са ECMAScript и PCRE2.
Савет
На YouTube-у такође постоји видео које једноставно и разумљиво објашњава поступак аутоматског архивирања / регуларних израза и променљивих / автоматско обрада рачуна:
В текущей статье мы продемонстрируем вам, как с помощью многоэлементных регулярных выражений в PaperOffice можно извлечь любые данные из документа и автоматически обозначить их в качестве метаданных документа.
Далее мы создали образец документа, который содержит определенную дату. В этом документе представлен счет. Образец даты в нашем документе отформатирован следующим образом:
Месяц, состоящий из букв, при этом первая буква всегда заглавная, затем следует пробел, далее день, затем запятая, еще один пробел и год.
Например: Sep 20, 2019 или Mär 05, 2022
Чтобы извлечь эту дату, мы можем использовать следующее регулярное выражение (REGEX):
Разберем выражение на отдельные группы. Эти группы разделяются простыми скобками ().
В первой группе мы ищем 3 буквы месяца: ([A-Z][a-zä]{2})
Затем мы ищем пробел с этой последовательностью: \s
Во второй группе мы ищем обозначение дня в цифрах: (0[1-9]|[12][0-9]|3[01])
Указание дня должно быть разделено тремя различными инструкциями.
Так как мы не знаем, какая дата может появиться в документе, может быть указан первый день (01) или последний день (31) месяца, поэтому должны быть указаны различные варианты.
Они разделяются символом “|”.
Пример: (1|2|3) = 1 или 2 или 3.
Угловые скобки содержат перечисление допустимых символов. Несколько квадратных скобок соответствуют множеству символов.Если выражение должно описывать несколько символов, они просто объединяются друг за другом. Затем ввод сравнивается с вашим выражением слева направо.
Конечно же, не все числа всегда должны быть перечислены. Весь заключенный в скобки фрагмент означает только один символ.
Данная строка ищет числовой шаблон, который начинается с нуля. Если ваш документ обычно содержит дату “5 марта 2022 г.”, то без префиксной “0” перед числом “5” в строке этот префиксный “0” не будет указан.
После определения вариантов для дня следует определить выражение для года.
Теперь мы ищем запятую и пробел: ,\s
В последней группе мы ищем год: (20\d{2})
Као још један пример, желели бисмо да издвојимо број налога из документа.
Број налога на нашем документу има следећи формат:
Увек започиње главним словима XYB, затим следи цртица, затим 8 цифара, још једна цртица и на крају 3 случајна главна слова.
Примери бројева налога били би:
XYB-12316723-LSH
XYB-98456723-JRD
За издвајање овог броја налога, можемо користити следећи регуларни израз:
Дозволите нам да разбијемо израз на делове.
Прво тражимо прецизно првих 3 главна слова са свестраним симболом: XYB-
Затим тражимо 8 цифара, за њима још једна цртица: \d{8}-
Знак \d, као што је већ описано, представља цифру између 0 и 9, поново знак \d{8} тражи дигит из осам цифара.
На крају тражимо 3 произвољна главна слова: [A-Z]{3}
На овај начин би PaperOffice издвајао следеће бројеве налога:
XYB-12316723-LSH
XYB-98456723-JRD
XYB-975432671829
ZYB-12342176-ZHD
приметио bi XYB-12316723-LSH и XYB-98456723-JRD од ових бројева налога
.
Припремили смо ланк на Regex101 за овај пример, где су наведени регуларни израз и четири примера. Видићете да само два од наведених бројева доспевају у наше захтеве.
Број артикла на нашем документу форматиран је на следећи начин:
Увек започиње са два главна слова, затим следи цртица, за њима је 6 цифара.
Примери бројева артикла били би:
MS-863398
DS-452829
За издвајање ових бројева артикла можемо користити следећи регуларни израз:
PaperOffice може дигитализовати ваше документе и интегрисати их у ваше системе како би аутоматизовао екстракцију података са рачуна и других документа, без писања и одржавања бескрајних кодова.
Контактирајте нас да разговарамо о вашим случајевима употребе и да сазнање како PaperOffice може помоћи да останете конкурентни у дигиталном добућ.
Почне преваљивати лакше него што мислите.
Да ли се и даље бојите да не можете успети? Прочитајте студије случајева наших корисника о интеграцији PaperOffice у пословни живот и уверите се сами о њеној једноставности, или захтевате бесплатну инсталацију тестиранице.
ERROR: LID-5759 missing
ERROR: LID-6036 missing
ERROR: LID-6035 missing
ERROR: LID-5763 missing
ERROR: LID-6039 missing
ERROR: LID-6035 missing
ERROR: LID-5756 missing
ERROR: LID-6042 missing
ERROR: LID-5803 missing
ERROR: LID-5793 missing
ERROR: LID-6069 missing
ERROR: LID-6070 missing
ERROR: LID-5787 missing
ERROR: LID-6072 missing
ERROR: LID-6035 missing
ERROR: LID-5789 missing
ERROR: LID-6077 missing
ERROR: LID-6070 missing
ERROR: LID-6074 missing
ERROR: LID-5771 missing
ERROR: LID-6075 missing
ERROR: LID-6035 missing
ERROR: LID-5777 missing
ERROR: LID-5759 missing
ERROR: LID-5763 missing
ERROR: LID-5800 missing
ERROR: LID-5769 missing
ERROR: LID-6082 missing
ERROR: LID-6083 missing