Разбиране на редовни изрази: Ръководство за създаване на ефективни и мощни изрази
Ключът за автоматизирано събиране на данни и извличането им.
Ключът за автоматизирано събиране на данни и извличането им.
Най-високи възможни оферти за отстъпка.
Изключителни новини от вътрешния кръг
Безплатни бонус ъпгрейди
Най-високи възможни оферти за отстъпка.
Изключителни новини от вътрешния кръг
Безплатни бонус ъпгрейди
Приятелство, доверие, слово от честност
Никога няма да предоставим Вашия имейл адрес на никой друг и всяко имейл съдържа връзка за отписване с едно щракване.
Проучвайте, чтобы останете в идеална форма
Автоматично взимане на данни с редовни изрази: как да обработвате ефективно големи обеми данни с помощта на редовни изрази.В настоящата статия ще ви покажем как да използвате редовни изрази, за да се насладите на предимствата от автоматизираната обработка на документи. Това е от особена важност за документи от компании във всяка бранша.
Ще ви представим точни примери на редовни изрази и ще обясним стъпка по стъпка какво означават те и как можете да ги използвате.
Това ще ви позволи да повишите ефективността на своето предприятие, да намалите човешките грешки чрез повишена точност, да намалите настоящите си разходи, съхраните данните в съответствие с нормативите и подобрите сигурността на данните си.
Текстът разширява първата част, относно интелигентната обработка на документи, на която можете да преминете директно тук.
Извличането на определени елементи от документи може да бъде трудна и времеемка задача. Често сканираните документи се изпращат на големи компании за обработка на данни, където данните се въвеждат ръчно.
Въпреки това, този подход има различни недостатъци, като:
Както и много други.
Въпреки широкото разпространение на сканиране, голяма част от бизнес транзакциите все още се основават на хартиени документи. Оценява се, че 85% от фактурите все още се издават на хартия.
Освен това има гори от съществуваща хартия, която трябва да бъде съхранена в големи складове!
Редовните изрази, също известни като "Regex", са мощно средство за търсене и манипулиране на текст. Те позволяват разпознаването и редактирането на сложни модели в текста.
Редовният израз се състои от комбинация от обикновени символи и специални метасимволи, които имат специални функции.
Регулярните изрази могат също така да се използват за замяна или манипулация на текст. Например редовен израз може да се използва.
Те са много мощно средство за обработка на текст и автоматизация на задачи.
Увеличаващото се количество национални документи с различни типове, различни правила за именуване и липсата на адекватна система за търсене затруднява процеса на търсене и извличане на информация от документите за конкретно съдържание, особено при некласифицирани документи, търсенето става неточно и отнема дълго време.
Така се търси и извлича съдържанието на документа според зададен низ.Регулярните изрази представляват начин за определяне на шаблони в информацията, използвайки специални символи.
Методът Regex е най-подходящ за документи, при които позициите на извличане на стойности могат да варират и прости шаблони на документа не са задоволителни.
Списък с прости изрази можете да намерите в нашия ComDesk.
Редовните изрази могат да бъдат сглобени по различни начини, в зависимост от това какъв вид модел се търси.
Използвате метасимволи като ., *, +, ?, ^, $, [] и [a-z] за представяне на определени символи или модел.
Използвате опционални части: използвайте въпросителния знак (?) или звезда (*), за да направите части от модела изборителни.
Използвате групиране: използвате кръгли скоби, за да групирате части от модела и да ги третирате като единица.
Важно е да се има предвид, че правилата за редовни изрази могат да се различават в зависимост от програмния език. Така е важно да се прочетат документациите на използваните инструменти. RegExp, написани за PaperOffice, трябва да бъдат съвместими с ECMAScript и PCRE2.
Съвет
В YouTube има също видео на тема "Automatisierte Dokumenten ABLAGE / REGEX & Variablen / Rechnungsverarbeitung automatisieren", което обяснява този процес лесно и разбираемо:
В настоящата статия ще ви покажем как можете да извлечете всякакви данни от документа си, използвайки комбинирани регулярни изрази в PaperOffice и автоматично да ги предоставите като маркери за таговете на документа.
По-долу създадохме примерен документ, който съдържа конкретна дата. В този документ става дума за фактура. Подпразникът на нашия документ е форматиран по следния начин:
Месец, съдържащ букви, притежава само първа буква с главна буква, след това има интервал, след което денят следва, след като има запетая и още един интервал и накрая годината.
Например: Сеп 20, 2019 или Март 05, 2022
За да извлече тази дата, можем да използваме следния регулярен израз (REGEX):
Раздробим изразът на отделни групи. Групите се разделят чрез стандартните скоби ()
В първата група търсим трите буквено-месечни букви: ([A-Z][a-zä]{2})
След това търсим интервал чрез тази последователност: \s
Във втората група търсим показания за деня с цифра: (0[1-9]|[12][0-9]|3[01])
Показването на деня трябва да бъде разделено с трите различни установления.
Тъй като не знаем кое показване на дата ще се появи в документа, може да бъде първият ден (01) или последният ден (31) на месеца, ще трябва да бъдат указани различни опции.
Те се разделят със знака „|“. Пример: (1|2|3) = 1 или 2 или 3.
В квадратните скоби следва списък с разрешени символи. Няколко кръгли скоби сочат няколко символа.Ако изразът трябва да премине няколко символа, те се просто съединяват последователно. След това входът се сравнява отляво надясно с израза.
Разбира се, не винаги е необходимо да бъдат посочени всички числа. Но общо взето ограденият израз означава само един символ.
Тази последователност търси календарен шаблон, който започва с нула. Ако вашият документ обикновено съдържа дата „5 март 2022“ без нулата преди числото „5“, нулата се премахва от последователността на числа.
Като допълнителен пример, искаме да извлечем поръчковия номер от документа.
Поръчковият номер в нашия документ е форматиран по следния начин:
Той винаги започва с големите букви XYB, следвани от тире, последвани от 8 цифри, следвани от друго тире и на края 3 произволни големи букви.
Примери за поръчкови номера биха били:
XYB-12316723-LSH
XYB-98456723-JRD
За да извлечем този поръчков номер, можем да използваме следния редовен израз:
Нека декомпозираме израза поотделно.
Първо търсим точно първите 3 големи букви със символа за тире: XYB-
След това търсим 8 цифри, следвани от друго тире: \d{8}-
Знакът \d, както вече е описан, означава цифра от 0 до 9, отново знакът \d{8} търси осмотоцифрено число.
И, най-накрая, търсим 3 произволни големи букви: [A-Z]{3}
Така PaperOffice ще разпознаява първите два поръчкови номера от следните:
XYB-12316723-LSH
XYB-98456723-JRD
XYB-975432671829
ZYB-12342176-ZHD
XYB-12316723-LSH и XYB-98456723-JRD
Ако имате въпроси, свързани с редовните изрази, създадохме Връзка към Regex101, където ще видите гореописаният редовен израз с четири примера. Ще видите, че само две от предоставените поръчкови номера отговарят на нашите изисквания.
Артикулният номер в нашия документ е форматиран по следния начин:
Той винаги започва с две големи букви, следвани от тире, последвани от 6 цифри.
Примери за артикулните номера биха били:
MS-863398
DS-452829
За да извлечете тези артикулни номера, можем да използваме следния редовен израз:
PaperOffice може да дигитализира вашите документи и да ги вгради в системите ви, за да автоматизира извличането на данни от фактури и други документи без да пишете и поддържате много кодове.
Свържете се с нас, за да обсъдим вашите случаи и да разберете как PaperOffice може да ви помогне да останете конкурентоспособни в цифровата ера.
Започването е по-лесно, отколкото си мислите.
Още си имате съмнения, че няма да се справите? Прочетете примерните случаи на наши клиенти за интеграцията на PaperOffice във вашето делово представяне и се убедете сами в лесното използване или поискайте пробна инсталация.
Накрая, отговаряме на още няколко често задавани въпроси относно темата. "":
Бързият и лесен отговор на въпроса е: за всяка фирма. Всички отрасли и размери на предприятията - от малки и средни предприятия, през стартъпи, до големи компании, се възползват от офис без хартия. За малките и средните предприятия преходът е особено полезен, тъй като намаляването на разходите по обработка на документи осигурява допълнителен бюджет за насърчаване на растежа.
Не. Още един фактор, който още повече привлича внимание, особено след окончателното прилагане на Общия регламент за защита на данните (ОРЗД) през 2018 г., е защитата на личните данни. Решенията за управление на документи и софтуерите за управление на документи се използват за обработка, управление и съхранение на документи, често съдържащи чувствителни лични данни. При нарушения на ОРЗД, законодателят предвижда високи глоби.
Работата в електронен формат и прехвърлянето на старите документи в новото време ще бъде най-добрата ключова инвестиция, която ще спести много време, пари и нерви в бъдеще.
Не ви е необходим собствен IT специалист, за да използвате всичките предимства на дигитализацията.
Каквото ви трябва е правилният партньор до вашата страна, който може да изпълни точно това, което ви е необходимо, чрез своите опити. Избягвайте катастрофалните истории и избирайте полезни тестови варианти, вместо да бъдат изложени на шикозни презентации в PowerPoint, които не са били наистина тествани.
По опит офиси, компании и предприятия имат печатащи устройства, които не използват максималните си възможности. Тези устройства са идеални за масово сканиране, търпят кламери и могат да бъдат основата за стартиране в електронен формат без нужда от инвестиции в скенери.
Избягвайте тежести с DMS/ECM системи, в които подлежите на безмилостни контрол на производителите. Не правете компромиси относно възможностите за собствена администрация, като например обучение на документи и настройки. Ако имате нужда от помощ, производителят ще ви помогне с удоволствие, но бъдете самостоятелни и независими.
Процесите ще продължат да се извършват по един и същ начин, но напълно автоматизирани.
Дохожда фактура? Работният процес се активира и всичко продължава по заложения път.
Търсите в 1000 папки с документи? Няма проблем, защото имате своя Google!
"В промишлеността темата за цифровизацията става все по-забележима. Това се отнася например за нашите технически листове с данни, клиентски данни, изчисления или нашите планове, чертежи и конфигурации. След въвеждането на PaperOffice DMS ръчното усилие би могло да бъде намалено. Сега сме пионери в цифровизацията в производствените компании, Индустрия 4.0."
Г-н Антонио Хесус Санчес
управляващ директор и инженер по продукти и процеси в Инженери по пеперуди S.L.