Информационен бюлетин PaperOffice Insider
Информационен бюлетин PaperOffice Insider
Искаме да сме приятели.

Най-високи възможни оферти за отстъпка.

Изключителни новини от вътрешния кръг

Безплатни бонус ъпгрейди

Най-високи възможни оферти за отстъпка.

Изключителни новини от вътрешния кръг

Безплатни бонус ъпгрейди

Приятелство, доверие, слово от честност
Никога няма да предоставим Вашия имейл адрес на никой друг и всяко имейл съдържа връзка за отписване с едно щракване.

Правилното извършване на интелигентен обработка на документи


Проучвайте, чтобы останете в идеална форма

Автоматично взимане на данни с редовни изрази: как да обработвате ефективно големи обеми данни с помощта на редовни изрази.


Ключът за автоматизирано събиране на данни и извличането им.

В настоящата статия ще ви покажем как да използвате редовни изрази, за да се насладите на предимствата от автоматизираната обработка на документи. Това е от особена важност за документи от компании във всяка бранша.

Ще ви представим точни примери на редовни изрази и ще обясним стъпка по стъпка какво означават те и как можете да ги използвате.

Това ще ви позволи да повишите ефективността на своето предприятие, да намалите човешките грешки чрез повишена точност, да намалите настоящите си разходи, съхраните данните в съответствие с нормативите и подобрите сигурността на данните си.

Текстът разширява първата част, относно интелигентната обработка на документи, на която можете да преминете директно тук.

Извличането на определени елементи от документи може да бъде трудна и времеемка задача. Често сканираните документи се изпращат на големи компании за обработка на данни, където данните се въвеждат ръчно.

Въпреки това, този подход има различни недостатъци, като:

  • Това може да бъде заплаха за сигурността на документите
  • Възползване на закъснение в работния процес
  • Ръчното индексиране е бавен процес в сравнение с автоматизираното извличане
  • Ръчното индексиране не се мащабира добре за големи проекти
  • Ръчното индексиране може да вложи грешки в данните
  • Ако се промени документ, целият процес трябва да започне отначало

Както и много други.

Въпреки широкото разпространение на сканиране, голяма част от бизнес транзакциите все още се основават на хартиени документи. Оценява се, че 85% от фактурите все още се издават на хартия.

Освен това има гори от съществуваща хартия, която трябва да бъде съхранена в големи складове!

Какво е редовен израз?

Редовните изрази, също известни като "Regex", са мощно средство за търсене и манипулиране на текст. Те позволяват разпознаването и редактирането на сложни модели в текста.

Редовният израз се състои от комбинация от обикновени символи и специални метасимволи, които имат специални функции.

Регулярните изрази могат също така да се използват за замяна или манипулация на текст. Например редовен израз може да се използва.

Те са много мощно средство за обработка на текст и автоматизация на задачи.

Как редовните изрази могат да помогнат на предприятието ви с автоматизацията?

Увеличаващото се количество национални документи с различни типове, различни правила за именуване и липсата на адекватна система за търсене затруднява процеса на търсене и извличане на информация от документите за конкретно съдържание, особено при некласифицирани документи, търсенето става неточно и отнема дълго време.

Регулярните изрази (Regex) предлагат бързо и мощно средство за търсене, извличане и замяна на определени данни в документи. Редовните изрази съществуват предимно като специални символни низове, описващи търсещо изразение.

Така се търси и извлича съдържанието на документа според зададен низ.Регулярните изрази представляват начин за определяне на шаблони в информацията, използвайки специални символи.

Методът Regex е най-подходящ за документи, при които позициите на извличане на стойности могат да варират и прости шаблони на документа не са задоволителни.

Списък с прости изрази можете да намерите в нашия ComDesk.

PaperOffice Regex Beispielsammlung
Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

Как мога да сглобя редовни изрази?

Редовните изрази могат да бъдат сглобени по различни начини, в зависимост от това какъв вид модел се търси.

Използвате метасимволи като ., *, +, ?, ^, $, [] и [a-z] за представяне на определени символи или модел.

Използвате опционални части: използвайте въпросителния знак (?) или звезда (*), за да направите части от модела изборителни.

Използвате групиране: използвате кръгли скоби, за да групирате части от модела и да ги третирате като единица.

Важно е да се има предвид, че правилата за редовни изрази могат да се различават в зависимост от програмния език. Така е важно да се прочетат документациите на използваните инструменти. RegExp, написани за PaperOffice, трябва да бъдат съвместими с ECMAScript и PCRE2.

Съвет

В YouTube има също видео на тема "Automatisierte Dokumenten ABLAGE / REGEX & Variablen / Rechnungsverarbeitung automatisieren", което обяснява този процес лесно и разбираемо:

Как да извлечете информация от документа си с REGEX?

Практически примери

В настоящата статия ще ви покажем как можете да извлечете всякакви данни от документа си, използвайки комбинирани регулярни изрази в PaperOffice и автоматично да ги предоставите като маркери за таговете на документа.

По-долу създадохме примерен документ, който съдържа конкретна дата. В този документ става дума за фактура. Подпразникът на нашия документ е форматиран по следния начин:

PaperOffice Rechnung mit Regex zu auslesen
Informationen automatisiert aus Rechnungen extrahieren

Месец, съдържащ букви, притежава само първа буква с главна буква, след това има интервал, след което денят следва, след като има запетая и още един интервал и накрая годината.

Например: Сеп 20, 2019 или Март 05, 2022


За да извлече тази дата, можем да използваме следния регулярен израз (REGEX):

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Раздробим изразът на отделни групи. Групите се разделят чрез стандартните скоби ()

В първата група търсим трите буквено-месечни букви: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Извличане на месеца

  • [A-Z] Тази последователност означава, че търсим главна буква от А до Z. Например буквата „S“ от „Септември“. Важно е да се отбележи, че главните и малките букви са различни.
  • [a-zä]{2} Тази последователност означава, че търсим две малки букви от a до z и също така „ä“ (за името на месеца на немски „Март“). Това би било „еп“ от „Септември“ или „är“ от немското „Март“.

След това търсим интервал чрез тази последователност: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Извличане на деня

Във втората група търсим показания за деня с цифра: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Показването на деня трябва да бъде разделено с трите различни установления.
Тъй като не знаем кое показване на дата ще се появи в документа, може да бъде първият ден (01) или последният ден (31) на месеца, ще трябва да бъдат указани различни опции.
Те се разделят със знака „|“. Пример: (1|2|3) = 1 или 2 или 3.

В квадратните скоби следва списък с разрешени символи. Няколко кръгли скоби сочат няколко символа.Ако изразът трябва да премине няколко символа, те се просто съединяват последователно. След това входът се сравнява отляво надясно с израза.

Разбира се, не винаги е необходимо да бъдат посочени всички числа. Но общо взето ограденият израз означава само един символ.

  • 0[1-9] Тази последователност означава, че числото може да започва с „0“, последвано от число от 1 до 9. Получаваме всеки произволен номер от 01 до 09.
  • Тази последователност търси календарен шаблон, който започва с нула. Ако вашият документ обикновено съдържа дата „5 март 2022“ без нулата преди числото „5“, нулата се премахва от последователността на числа.

  • [12][0-9] Тази последователност означава, че числото може да започне с „1“ или „2“, последвано от произволно число от 0 до 9. Резултатът може да бъде всяко число от 10 до 29.
  • 3[01] Тази последователност означава, че числото може да започва

Извличане на поръчков номер с REGEX

Като допълнителен пример, искаме да извлечем поръчковия номер от документа.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Auftragsnummern werden aus dem Dokument extrahiert

Поръчковият номер в нашия документ е форматиран по следния начин:

Той винаги започва с големите букви XYB, следвани от тире, последвани от 8 цифри, следвани от друго тире и на края 3 произволни големи букви.

Примери за поръчкови номера биха били:

XYB-12316723-LSH

XYB-98456723-JRD

За да извлечем този поръчков номер, можем да използваме следния редовен израз:

XYB-\d{8}-[A-Z]{3}

Нека декомпозираме израза поотделно.

Първо търсим точно първите 3 големи букви със символа за тире: XYB-

XYB-\d{8}-[A-Z]{3}

След това търсим 8 цифри, следвани от друго тире: \d{8}-

XYB-\d{8}-[A-Z]{3}

Знакът \d, както вече е описан, означава цифра от 0 до 9, отново знакът \d{8} търси осмотоцифрено число.

И, най-накрая, търсим 3 произволни големи букви: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

Така PaperOffice ще разпознаява първите два поръчкови номера от следните:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

XYB-12316723-LSH и XYB-98456723-JRD

Ако имате въпроси, свързани с редовните изрази, създадохме Връзка към Regex101, където ще видите гореописаният редовен израз с четири примера. Ще видите, че само две от предоставените поръчкови номера отговарят на нашите изисквания.

Извличане на артикулни номера с REGEX

Артикулният номер в нашия документ е форматиран по следния начин:

Той винаги започва с две големи букви, следвани от тире, последвани от 6 цифри.

PaperOffice Rechnung mit Regex zu auslesen
Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

Примери за артикулните номера биха били:

MS-863398

DS-452829

За да извлечете тези артикулни номера, можем да използваме следния редовен израз:

[A-Z]{2}-\d{6}

PaperOffice може да дигитализира вашите документи и да ги вгради в системите ви, за да автоматизира извличането на данни от фактури и други документи без да пишете и поддържате много кодове.

Свържете се с нас, за да обсъдим вашите случаи и да разберете как PaperOffice може да ви помогне да останете конкурентоспособни в цифровата ера.

Започването е по-лесно, отколкото си мислите.

Още си имате съмнения, че няма да се справите? Прочетете примерните случаи на наши клиенти за интеграцията на PaperOffice във вашето делово представяне и се убедете сами в лесното използване или поискайте пробна инсталация.

FAQs

Накрая, отговаряме на още няколко често задавани въпроси относно темата. "":

За кого е подходящ офис без хартия?

Бързият и лесен отговор на въпроса е: за всяка фирма. Всички отрасли и размери на предприятията - от малки и средни предприятия, през стартъпи, до големи компании, се възползват от офис без хартия. За малките и средните предприятия преходът е особено полезен, тъй като намаляването на разходите по обработка на документи осигурява допълнителен бюджет за насърчаване на растежа.

Мога ли да използвам доставчик на базирани в облака услуги за управление на документи (ДУД) за офис без хартия в моята фирма?

Не. Още един фактор, който още повече привлича внимание, особено след окончателното прилагане на Общия регламент за защита на данните (ОРЗД) през 2018 г., е защитата на личните данни. Решенията за управление на документи и софтуерите за управление на документи се използват за обработка, управление и съхранение на документи, често съдържащи чувствителни лични данни. При нарушения на ОРЗД, законодателят предвижда високи глоби.

Заключение

  • Предимствата оправдават усилието и разходите

    Работата в електронен формат и прехвърлянето на старите документи в новото време ще бъде най-добрата ключова инвестиция, която ще спести много време, пари и нерви в бъдеще.

  • Трябва ви някой, който е запознат с това

    Не ви е необходим собствен IT специалист, за да използвате всичките предимства на дигитализацията.
    Каквото ви трябва е правилният партньор до вашата страна, който може да изпълни точно това, което ви е необходимо, чрез своите опити. Избягвайте катастрофалните истории и избирайте полезни тестови варианти, вместо да бъдат изложени на шикозни презентации в PowerPoint, които не са били наистина тествани.

  • Обикновено вече имате нужното оборудване

    По опит офиси, компании и предприятия имат печатащи устройства, които не използват максималните си възможности. Тези устройства са идеални за масово сканиране, търпят кламери и могат да бъдат основата за стартиране в електронен формат без нужда от инвестиции в скенери.

  • По-евтино, отколкото бихте очаквали с правилната система за DMS

    Избягвайте тежести с DMS/ECM системи, в които подлежите на безмилостни контрол на производителите. Не правете компромиси относно възможностите за собствена администрация, като например обучение на документи и настройки. Ако имате нужда от помощ, производителят ще ви помогне с удоволствие, но бъдете самостоятелни и независими.

  • Дигитална автоматизация е бъдещето

    Процесите ще продължат да се извършват по един и същ начин, но напълно автоматизирани.
    Дохожда фактура? Работният процес се активира и всичко продължава по заложения път.
    Търсите в 1000 папки с документи? Няма проблем, защото имате своя Google!

PaperOffice решава всеки проблем: Гарантирано.

Изучаване на случаи

Дигитална промяна в разработката на продукти - успешно управление на документи

"В промишлеността темата за цифровизацията става все по-забележима. Това се отнася например за нашите технически листове с данни, клиентски данни, изчисления или нашите планове, чертежи и конфигурации. След въвеждането на PaperOffice DMS ръчното усилие би могло да бъде намалено. Сега сме пионери в цифровизацията в производствените компании, Индустрия 4.0."

Г-н Антонио Хесус Санчес
управляващ директор и инженер по продукти и процеси в Инженери по пеперуди S.L.