The PaperOffice Insider Newsletter
The PaperOffice Insider Newsletter
우리는 친구가 되고 싶어요

가장 높은 할인 혜택 제공

독점적인 내부자 뉴스

무료 추가 업그레이드

가장 높은 할인 혜택 제공

독점적인 내부자 뉴스

무료 추가 업그레이드

우정 신뢰 영광의 말
우리는 당신의 이메일 주소를 아무에게도 제공하지 않으며 모든 이메일에는 한 번 클릭으로 구독 취소 링크가 포함되어 있습니다.

지능형 문서 처리 올바르게 수행


프로 팁

자동화된 데이터 수집과 정규 표현식: 정규 표현식을 사용하여 대량의 데이터를 효율적으로 처리하기


자동화된 데이터 수집 및 데이터 추출의 핵심.

현재 기사에서는 자동 문서 처리의 이점을 누리기 위해 정규 표현식을 사용하는 방법을 보여 드립니다. 이는 모든 업계의 기업 문서에 특히 적용됩니다.

정규 표현식의 정확한 예를 보여드리고 이들의 의미와 사용 방법을 단계별로 설명합니다.

이를 통해 운영 효율성을 높이고, 높은 정확도로 인해 인적 오류를 줄이며, 현재 비용을 줄이고, 데이터 무결성을 유지하며, 데이터 보안을 향상시킬 수 있습니다.

현재 기사는 지능형 문서 처리에 대한 첫 번째 부분을 확장한 것입니다. 여기에서 기사를 직접 확인할 수 있습니다.

문서에서 특정 데이터 요소를 추출하는 것은 매우 비용이 많이 들고 시간이 많이 걸리는 작업일 수 있습니다. 종종 문서의 스캔본이 대형 아웃소싱 데이터 입력 회사로 전송되어 수작업으로 데이터를 입력합니다.

그러나 이 접근법에는 다음과 같은 여러 단점이 있습니다:

  • 문서 보안이 위태로울 수 있다
  • 워크플로우 프로세스에 지연이 발생한다
  • 자동화된 추출에 비해 수작업 색인은 느린 프로세스이다
  • 수작업 색인은 대규모 프로젝트에서 잘 확장되지 않는다
  • 수작업 색인은 데이터에 오류를 도입할 수 있다
  • 문서가 변경되면 전체 과정이 다시 시작된다

및 기타 여러 가지.

스캔의 보급에도 불구하고 많은 비즈니스 거래는 여전히 종이 기반 문서에 의존합니다. 여전히 85%의 청구서가 종이로 발행되는 것으로 추정됩니다.

또한 거대한 창고에 보관해야 하는 종이 산이 있습니다!

정규 표현식이란 무엇인가?

정규 표현식, "Regex"로도 알려진 것은 텍스트를 검색하고 조작하는 강력한 도구입니다. 복잡한 패턴을 텍스트에서 인식하고 편집할 수 있게 합니다.

정규 표현식은 일반 문자의 조합과 특별한 기능을 가진 메타 문자의 조합으로 구성됩니다.

정규 표현식은 텍스트를 대체하거나 조작하는 데에도 사용될 수 있습니다. 예를 들어, 정규 표현식을 사용할 수 있습니다.

텍스트 처리 및 작업 자동화를 위한 매우 강력한 도구입니다.

정규 표현식이 기업의 자동화에 어떻게 도움이 될 수 있습니까?

다양한 유형의 디지털 문서의 증가와 충분한 검색 시스템 없는 다양한 명명 규칙은 검색 과정과 특정 내용을 포함한 문서 정보의 검색 과정을 어렵게 만듭니다. 특히 분류되지 않은 문서의 경우 검색이 부정확해지고 오래 걸립니다.

정규 표현식(Regex)는 문서의 특정 데이터를 검색, 추출 및 대체하는 빠르고 강력한 방법을 제공합니다. 정규 표현식은 본질적으로 검색 패턴을 설명하기 위한 특별한 텍스트 문자열입니다.

이렇게 하면 문서 내용이 지정된 문자열을 검색하고 읽습니다. 정규 표현식은 특수 기호를 사용하여 정보의 패턴을 정의하는 방법입니다.

Regex 방법은 값을 읽어야 하는 위치가 달라질 수 있는 문서와 단순한 문서 템플릿이 적용되지 않는 경우에 가장 적합합니다.

간단한 표현식 목록은 ComDesk에서 찾을 수 있습니다.

PaperOffice Regex Beispielsammlung
Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

정규 표현식을 어떻게 구성할 수 있습니까?

정규 표현식은 검색할 패턴의 유형에 따라 다양한 방식으로 구성될 수 있습니다.

점(.), 별표(*), 더하기(+), 물음표(?), 캐럿(^), 달러 표시($), 대괄호([]), a-z와 같은 메타 문자를 사용하여 특정 유형의 문자 또는 패턴을 나타냅니다.

옵션 부분 사용: 물음표(?) 또는 별표(*)를 사용하여 패턴의 일부를 선택적으로 만듭니다.

그룹 사용: 괄호를 사용하여 패턴의 일부를 그룹화하고 이를 하나의 단위로 처리합니다.

정규 표현식의 규칙은 사용하는 프로그래밍 언어에 따라 다를 수 있음을 염두에 두는 것이 중요합니다. 따라서 사용 중인 도구의 문서를 읽는 것이 중요합니다. PaperOffice에 작성된 RegEx는 ECMAScript 및 PCRE2와 호환되어야 합니다.

"자동 문서 보관 / REGEX & 변수 / 청구서 처리 자동화" 주제에 대한 YouTube 동영상도 있습니다. 이 과정이 쉽게 설명되었습니다:

내 문서에서 REGEX로 정보를 추출하는 방법은 무엇입니까?

실제 예

이 기사에서는 PaperOffice의 여러 요소를 포함하는 정규 표현식을 사용하여 문서에서 데이터를 추출하고 이를 자동으로 문서에 태그로 추가하는 방법을 설명합니다.

아래는 특정 날짜를 포함하는 샘플 문서를 작성했습니다. 이 문서는 청구서입니다. 문서의 날짜 형식은 다음과 같습니다:

PaperOffice Rechnung mit Regex zu auslesen
Informationen automatisiert aus Rechnungen extrahieren

첫 글자는 대문자로 시작하고 그 뒤에 공백, 그 다음에 일자가 오고 쉼표 그리고 또 하나의 공백, 마지막으로 연도가 옵니다.

예를 들어: Sep 20, 2019 또는 Mär 05, 2022


이 날짜를 추출하기 위해 다음 정규 표현식(REGEX)을 사용할 수 있습니다:

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

이 표현식을 개별 그룹으로 나누어 보겠습니다. 이 그룹들은 간단한 괄호 ()로 구분됩니다.

첫 번째 그룹에서는 3자리 월을 찾습니다: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

월 정보 추출

  • [A-Z] 이 문자열은 A-Z 사이의 대문자를 검색한다는 의미입니다. 예를 들어 Sept“S”입니다. 대소문자를 구분해야 합니다.
  • [a-zä]{2} 이 문자열은 소문자 a-z 사이의 두 자리 문자와 ä (독일어 월 이름 “März”에서)를 검색한다는 의미입니다. Sepep 또는 “Mär”의 är입니다.

그 다음에는 공백으로 된 문자열을 찾습니다: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

일 정보 추출

두 번째 그룹에서는 일자를 숫자로 찾습니다: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

일자는 세 개의 다른 지시문으로 구분되어야 합니다.
문서에 어떤 날짜가 포함될지 모르기 때문에 첫 번째 일자(01)마지막 일자(31)를 포함할 수 있으므로 여러 옵션을 제공해야 합니다.
이들은 “|”로 구분됩니다.
예제: (1|2|3) = 1 또는 2 또는 3.

대괄호 안에는 허용되는 문자의 목록이 나열됩니다. 여러 개의 대괄호는 여러 문자를 나타냅니다. 여러 문자를 설명하려면 차례로 나열하여 왼쪽에서 오른쪽으로 표현과 비교합니다.

모든 숫자를 다 나열할 필요는 없습니다. 전체 괄호로 묶인 표현식은 한 문자만 나타냅니다.

  • 0[1-9] 이 문자열은 숫자가 "0"으로 시작하고 1부터 9까지의 숫자가 뒤따를 수 있음을 의미합니다. 따라서 01 – 09 사이의 숫자를 얻을 수 있습니다.
  • 문서가 일반적으로 "5. März 2022"와 같은 날짜를 포함하는 경우, "5" 앞에 "0"이 없는 경우, 문자열에서 "0"을 생략하면 됩니다.

  • [12][0-9] 이 문자열은 숫자가 "1" 또는 "2"로 시작하고 뒤따르는 0에서 9 사이의 임의의 숫자를 나타냅니다. 따라서 10 - 29 사이의 숫자를 얻을 수 있습니다.
  • 3[01] 이 문자열은 숫자가 "3"으로 시작하고 뒤따르는 0 또는 1이 올 수 있음을 나타냅니다. 따라서 30 또는 31이 될 수 있습니다.

일자에 대한 옵션이 정의되면 연도에 대한 표현식을 지정해야 합니다.

이제 쉼표와 공백을 찾습니다: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

연도 정보 추출

마지막 그룹에서는 연도를 찾습니다: (20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

임의의 연도를 찾기 시작하지만 그것이 2000년 이상이라는 것을 알고 있습니다.

  • 20 이 문자열은 "20"으로 시작하는 임의의 연도를 찾는다는 의미입니다.
  • \d{2} 이 문자열은 두 자리 숫자를 나타내며, 이는 "00"에서 "99" 사이의 숫자입니다.

문자 \d는 0에서 9 사이의 숫자를 나타내며, 다시 \d{2}는 두 자리 숫자를 찾습니다.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Variablen werden aus dem Dokument ausgelesen und bereitgestellt

PaperOffice에 이 정규 표현식을 적용하면 최종 결과로 „Sep 20, 2019“라는 날짜가 표시됩니다.

이와 같이, 날짜 순서에 대해 사전에 알지 않아도 문서에서 임의의 날짜를 읽을 수 있습니다. 이 그룹들은 다른 형식의 날짜를 읽기 위해 어디서든 자유롭게 사용할 수 있습니다.

다음은 또 다른 예입니다:

PaperOffice Rechnung 2 mit Regex zu auslesen
Rechnungen mit verschiedenen Formaten können leicht ausgelesen werden

날짜는 일자로 시작하고, 그 다음에 글자로 구성된 월이 오며, 첫 글자는 항상 대문자입니다. 그 뒤에는 점이 오고 공백과 연도가 옵니다.

이 날짜를 추출하기 위해, 위에서 설명한 정규 표현식(REGEX)을 사용하고, 두 번째 예제에서는 월 다음에 "점"이 지정되므로 이를 추가해야 합니다.

이는 다음 문자열로 지정할 수 있습니다: \.

따라서 전체 표현식은 다음과 같습니다:

(0[1-9]|[12][0-9]|3[01])\s([A-Z][a-zä]{2})\.\s(20\d{2})

여러분이 만든 Regex를 언제든지 검증할 수 있으며, https://regex101.com 사이트에서 텍스트와 함께 넣을 수 있습니다. Regex101은 Regex가 올바른지 검증할 뿐만 아니라 정규 표현식을 광범위하게 설명할 것입니다.

이와 같이, 다양한 문자 그룹을 모든 것에 사용할 수 있습니다.

REGEX 덕분에 주문 번호 읽기

추가 예로, 우리는 문서에서 주문 번호를 읽고 싶습니다.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Auftragsnummern werden aus dem Dokument extrahiert

우리 문서의 주문 번호는 다음과 같이 형식화되어 있습니다:

이것은 항상 대문자 XYB로 시작하며, 그 다음에는 하이픈, 8개의 숫자, 또 다른 하이픈, 그리고 마지막으로 3개의 임의의 대문자로 구성됩니다.

주문 번호의 예는 다음과 같습니다:

XYB-12316723-LSH

XYB-98456723-JRD

이 주문 번호를 추출하기 위해, 다음의 정규 표현식을 사용할 수 있습니다:

XYB-\d{8}-[A-Z]{3}

이 표현식을 하나씩 분해해 봅시다.

먼저, 첫 3개의 대문자와 하이픈 기호를 정확히 찾습니다: XYB-

XYB-\d{8}-[A-Z]{3}

그 다음에는 8개의 숫자 뒤에 또 다른 하이픈이 옵니다: \d{8}-

XYB-\d{8}-[A-Z]{3}

\d 기호는 설명한 바와 같이, 0에서 9 사이의 숫자를 의미하며, \d{8} 기호는 8자리 숫자를 찾습니다.

마지막으로, 3개의 임의의 대문자를 찾습니다: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

이렇게 해서 PaperOffice가 다음의 주문 번호에서:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

첫 두 개 XYB-12316723-LSHXYB-98456723-JRD

를 인식할 수 있습니다.

이 예제를 위해 우리는 Regex101 링크를 준비했으며, 여기에는 설명된 정규 표현식과 4개의 샘플이 나와 있습니다. 지정된 주문 번호 중 두 개만이 우리의 요구 사항에 부합하는 것을 볼 수 있습니다.

REGEX 덕분에 제품 번호 읽기

우리 문서의 제품 번호는 다음과 같이 형식화되어 있습니다:

이것은 항상 두 개의 대문자로 시작하며, 그 다음에는 하이픈, 6개의 숫자가 옵니다.

PaperOffice Rechnung mit Regex zu auslesen
Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

제품 번호의 예는 다음과 같습니다:

MS-863398

DS-452829

이 제품 번호를 추출하기 위해, 다음의 정규 표현식을 사용할 수 있습니다:

[A-Z]{2}-\d{6}

PaperOffice는 귀하의 문서를 디지털화하고 귀하의 시스템으로 통합하여, 수많은 코드를 작성하고 관리할 필요 없이 청구서 및 기타 문서에서 데이터 추출을 자동화할 수 있습니다.

귀하의 사용 사례에 대해 논의하고 PaperOffice가 디지털 시대에 더 경쟁력 있게 도와드릴 수 있는 방법에 대해 자세히 알아보려면 저희에게 연락하십시오.

시작하는 것은 생각보다 쉽습니다.

아직도 성공 시키지 못할까 걱정이 되시나요? 고객들이 PaperOffice를 비즈니스에 통합한 사례 연구를 읽어보고 그 간편함에 대해 스스로 확인하거나 시범 설치를 간단히 신청하십시오.

FAQs

"마침내, 우리는 주제에 대해 자주 묻는 몇 가지 질문에 대답합니다." "정규 표현식 REGEX를 사용한 자동 데이터 수집 및 추출 (2부)":

누구에게 종이 없는 사무실이 적합합니까?

이 질문에 대한 빠르고 간단한 답은: 모든 기업에게 적합합니다. 종이 없는 사무실은 중소기업, 스타트업에서 대기업에 이르기까지 모든 산업과 규모의 기업에 이익이 됩니다. 그러나 특히 중소기업에게는 전환이 매우 가치가 있습니다: 처리 작업과 비용을 줄임으로써 추가 성장 촉진제에 필요한 예산이 확보됩니다.

내 회사의 종이 없는 사무실을 위해 클라우드 기반 DMS 제공자를 사용할 수 있습니까?

아니요. 2018년 GDPR이 최종 시행된 후 데이터 보호가 중요한 요소가 되었습니다. DMS 솔루션과 DMS 소프트웨어는 종종 민감한 개인 데이터를 포함하는 문서를 처리, 관리 및 저장하는 데 사용됩니다. GDPR 위반 시 법률은 높은 벌금을 부과합니다.

결론

  • 장점이 노력과 비용을 정당화합니다

    디지털으로 일하고 오래된 문서를 새로운 시대로 가져가는 것은 미래에 엄청난 시간, 돈, 신경을 절약할 수 있는 최고의 주요 투자일 것입니다.

  • 당신은 전문가가 필요합니다

    디지털화의 모든 이점을 활용하기 위해 자체 IT 전문가가 필요하지 않습니다.
    당신이 필요한 것은 경험을 바탕으로 필요한 것을 정확히 구현할 수 있는 올바른 파트너입니다. 공포를 조장하는 사람을 피하고, 실제로 테스트해보지 않은 멋진 파워포인트 프레젠테이션 대신 테스트 실행을 선택하십시오.

  • 대부분의 하드웨어는 이미 존재합니다

    경험상 거의 모든 사업체, 회사, 기업에는 대형 복사기가 있으며, 이 기기는 그 가능성을 충분히 활용하지 못하고 있습니다. 이 장치는 대량 스캔을 좋아하며, 클립에 대한 내성이 강하고 스캐너 투자가 필요 없는 디지털 시작을 위한 기초가 될 수 있습니다.

  • 올바른 DMS를 사용하면 예상보다 저렴합니다

    제조사에게 무자비하게 의존하는 DMS/ECM 시스템의 비용 함정을 피하십시오. 문서를 직접 학습시키고 설정을 수행하는 등의 자체 관리 가능성에 대해 타협하지 마십시오. 도움이 필요하면 제조업체가 기꺼이 도와드리지만, 스스로 독립적이고 자립적인 상태를 유지하십시오.

  • 디지털 자동화는 미래입니다

    미래에는 모든 과정이 동일하게 수행되지만 완전 자동화됩니다.
    계산서가 들어오면 워크플로우가 시작되어 모든 것이 한 번 정의된 경로를 따라 진행됩니다.
    1000개의 파일 폴더를 모두 검색해야 하나요? 문제 없습니다. 당신에게는 자체 Google이 있습니다!

PaperOffice 모든 문제 해결: 보장됨.

사례 연구

제품 개발의 디지털 변화 - 성공적인 문서 관리

"업계에서는 디지털화라는 주제가 점점 더 눈에 띄게 되고 있습니다. 이는 예를 들어 기술 데이터 시트, 고객 데이터, 계산 또는 계획, 도면 및 구성에 적용됩니다. PaperOffice DMS가 도입 된 후에는 수동 작업을 줄일 수 있습니다. 우리는 이제 생산 회사인 Industry 4.0의 디지털화의 선구자입니다."

Antonio Jesús Sánchez
Butterfly Engineers S.L.의 전무 이사 겸 제품 및 프로세스 엔지니어