정규 표현식 REGEX를 사용한 자동 데이터 수집 및 추출 (2부)
정규 표현식 숙달하기: 효율적이고 강력한 표현식 작성 안내서
자동화된 데이터 수집 및 데이터 추출의 핵심.
자동화된 데이터 수집 및 데이터 추출의 핵심.
가장 높은 할인 혜택 제공
독점적인 내부자 뉴스
무료 추가 업그레이드
가장 높은 할인 혜택 제공
독점적인 내부자 뉴스
무료 추가 업그레이드
우정 신뢰 영광의 말
우리는 당신의 이메일 주소를 아무에게도 제공하지 않으며 모든 이메일에는 한 번 클릭으로 구독 취소 링크가 포함되어 있습니다.
프로 팁
자동화된 데이터 수집과 정규 표현식: 정규 표현식을 사용하여 대량의 데이터를 효율적으로 처리하기현재 기사에서는 자동 문서 처리의 이점을 누리기 위해 정규 표현식을 사용하는 방법을 보여 드립니다. 이는 모든 업계의 기업 문서에 특히 적용됩니다.
정규 표현식의 정확한 예를 보여드리고 이들의 의미와 사용 방법을 단계별로 설명합니다.
이를 통해 운영 효율성을 높이고, 높은 정확도로 인해 인적 오류를 줄이며, 현재 비용을 줄이고, 데이터 무결성을 유지하며, 데이터 보안을 향상시킬 수 있습니다.
현재 기사는 지능형 문서 처리에 대한 첫 번째 부분을 확장한 것입니다. 여기에서 기사를 직접 확인할 수 있습니다.
문서에서 특정 데이터 요소를 추출하는 것은 매우 비용이 많이 들고 시간이 많이 걸리는 작업일 수 있습니다. 종종 문서의 스캔본이 대형 아웃소싱 데이터 입력 회사로 전송되어 수작업으로 데이터를 입력합니다.
그러나 이 접근법에는 다음과 같은 여러 단점이 있습니다:
및 기타 여러 가지.
스캔의 보급에도 불구하고 많은 비즈니스 거래는 여전히 종이 기반 문서에 의존합니다. 여전히 85%의 청구서가 종이로 발행되는 것으로 추정됩니다.
또한 거대한 창고에 보관해야 하는 종이 산이 있습니다!
정규 표현식, "Regex"로도 알려진 것은 텍스트를 검색하고 조작하는 강력한 도구입니다. 복잡한 패턴을 텍스트에서 인식하고 편집할 수 있게 합니다.
정규 표현식은 일반 문자의 조합과 특별한 기능을 가진 메타 문자의 조합으로 구성됩니다.
정규 표현식은 텍스트를 대체하거나 조작하는 데에도 사용될 수 있습니다. 예를 들어, 정규 표현식을 사용할 수 있습니다.
텍스트 처리 및 작업 자동화를 위한 매우 강력한 도구입니다.
다양한 유형의 디지털 문서의 증가와 충분한 검색 시스템 없는 다양한 명명 규칙은 검색 과정과 특정 내용을 포함한 문서 정보의 검색 과정을 어렵게 만듭니다. 특히 분류되지 않은 문서의 경우 검색이 부정확해지고 오래 걸립니다.
이렇게 하면 문서 내용이 지정된 문자열을 검색하고 읽습니다. 정규 표현식은 특수 기호를 사용하여 정보의 패턴을 정의하는 방법입니다.
Regex 방법은 값을 읽어야 하는 위치가 달라질 수 있는 문서와 단순한 문서 템플릿이 적용되지 않는 경우에 가장 적합합니다.
간단한 표현식 목록은 ComDesk에서 찾을 수 있습니다.
정규 표현식은 검색할 패턴의 유형에 따라 다양한 방식으로 구성될 수 있습니다.
점(.), 별표(*), 더하기(+), 물음표(?), 캐럿(^), 달러 표시($), 대괄호([]), a-z와 같은 메타 문자를 사용하여 특정 유형의 문자 또는 패턴을 나타냅니다.
옵션 부분 사용: 물음표(?) 또는 별표(*)를 사용하여 패턴의 일부를 선택적으로 만듭니다.
그룹 사용: 괄호를 사용하여 패턴의 일부를 그룹화하고 이를 하나의 단위로 처리합니다.
정규 표현식의 규칙은 사용하는 프로그래밍 언어에 따라 다를 수 있음을 염두에 두는 것이 중요합니다. 따라서 사용 중인 도구의 문서를 읽는 것이 중요합니다. PaperOffice에 작성된 RegEx는 ECMAScript 및 PCRE2와 호환되어야 합니다.
팁
"자동 문서 보관 / REGEX & 변수 / 청구서 처리 자동화" 주제에 대한 YouTube 동영상도 있습니다. 이 과정이 쉽게 설명되었습니다:
이 기사에서는 PaperOffice의 여러 요소를 포함하는 정규 표현식을 사용하여 문서에서 데이터를 추출하고 이를 자동으로 문서에 태그로 추가하는 방법을 설명합니다.
아래는 특정 날짜를 포함하는 샘플 문서를 작성했습니다. 이 문서는 청구서입니다. 문서의 날짜 형식은 다음과 같습니다:
첫 글자는 대문자로 시작하고 그 뒤에 공백, 그 다음에 일자가 오고 쉼표 그리고 또 하나의 공백, 마지막으로 연도가 옵니다.
예를 들어: Sep 20, 2019 또는 Mär 05, 2022
이 날짜를 추출하기 위해 다음 정규 표현식(REGEX)을 사용할 수 있습니다:
이 표현식을 개별 그룹으로 나누어 보겠습니다. 이 그룹들은 간단한 괄호 ()로 구분됩니다.
첫 번째 그룹에서는 3자리 월을 찾습니다: ([A-Z][a-zä]{2})
그 다음에는 공백으로 된 문자열을 찾습니다: \s
두 번째 그룹에서는 일자를 숫자로 찾습니다: (0[1-9]|[12][0-9]|3[01])
일자는 세 개의 다른 지시문으로 구분되어야 합니다.
문서에 어떤 날짜가 포함될지 모르기 때문에 첫 번째 일자(01)나 마지막 일자(31)를 포함할 수 있으므로 여러 옵션을 제공해야 합니다.
이들은 “|”로 구분됩니다.
예제: (1|2|3) = 1 또는 2 또는 3.
대괄호 안에는 허용되는 문자의 목록이 나열됩니다. 여러 개의 대괄호는 여러 문자를 나타냅니다. 여러 문자를 설명하려면 차례로 나열하여 왼쪽에서 오른쪽으로 표현과 비교합니다.
모든 숫자를 다 나열할 필요는 없습니다. 전체 괄호로 묶인 표현식은 한 문자만 나타냅니다.
문서가 일반적으로 "5. März 2022"와 같은 날짜를 포함하는 경우, "5" 앞에 "0"이 없는 경우, 문자열에서 "0"을 생략하면 됩니다.
일자에 대한 옵션이 정의되면 연도에 대한 표현식을 지정해야 합니다.
이제 쉼표와 공백을 찾습니다: ,\s
마지막 그룹에서는 연도를 찾습니다: (20\d{2})
임의의 연도를 찾기 시작하지만 그것이 2000년 이상이라는 것을 알고 있습니다.
문자 \d는 0에서 9 사이의 숫자를 나타내며, 다시 \d{2}는 두 자리 숫자를 찾습니다.
PaperOffice에 이 정규 표현식을 적용하면 최종 결과로 „Sep 20, 2019“라는 날짜가 표시됩니다.
이와 같이, 날짜 순서에 대해 사전에 알지 않아도 문서에서 임의의 날짜를 읽을 수 있습니다. 이 그룹들은 다른 형식의 날짜를 읽기 위해 어디서든 자유롭게 사용할 수 있습니다.
다음은 또 다른 예입니다:
날짜는 일자로 시작하고, 그 다음에 글자로 구성된 월이 오며, 첫 글자는 항상 대문자입니다. 그 뒤에는 점이 오고 공백과 연도가 옵니다.
이 날짜를 추출하기 위해, 위에서 설명한 정규 표현식(REGEX)을 사용하고, 두 번째 예제에서는 월 다음에 "점"이 지정되므로 이를 추가해야 합니다.
이는 다음 문자열로 지정할 수 있습니다: \.
따라서 전체 표현식은 다음과 같습니다:
여러분이 만든 Regex를 언제든지 검증할 수 있으며, https://regex101.com 사이트에서 텍스트와 함께 넣을 수 있습니다. Regex101은 Regex가 올바른지 검증할 뿐만 아니라 정규 표현식을 광범위하게 설명할 것입니다.
이와 같이, 다양한 문자 그룹을 모든 것에 사용할 수 있습니다.
추가 예로, 우리는 문서에서 주문 번호를 읽고 싶습니다.
우리 문서의 주문 번호는 다음과 같이 형식화되어 있습니다:
이것은 항상 대문자 XYB로 시작하며, 그 다음에는 하이픈, 8개의 숫자, 또 다른 하이픈, 그리고 마지막으로 3개의 임의의 대문자로 구성됩니다.
주문 번호의 예는 다음과 같습니다:
XYB-12316723-LSH
XYB-98456723-JRD
이 주문 번호를 추출하기 위해, 다음의 정규 표현식을 사용할 수 있습니다:
이 표현식을 하나씩 분해해 봅시다.
먼저, 첫 3개의 대문자와 하이픈 기호를 정확히 찾습니다: XYB-
그 다음에는 8개의 숫자 뒤에 또 다른 하이픈이 옵니다: \d{8}-
\d 기호는 설명한 바와 같이, 0에서 9 사이의 숫자를 의미하며, \d{8} 기호는 8자리 숫자를 찾습니다.
마지막으로, 3개의 임의의 대문자를 찾습니다: [A-Z]{3}
이렇게 해서 PaperOffice가 다음의 주문 번호에서:
XYB-12316723-LSH
XYB-98456723-JRD
XYB-975432671829
ZYB-12342176-ZHD
첫 두 개 XYB-12316723-LSH와 XYB-98456723-JRD
를 인식할 수 있습니다.
이 예제를 위해 우리는 Regex101 링크를 준비했으며, 여기에는 설명된 정규 표현식과 4개의 샘플이 나와 있습니다. 지정된 주문 번호 중 두 개만이 우리의 요구 사항에 부합하는 것을 볼 수 있습니다.
우리 문서의 제품 번호는 다음과 같이 형식화되어 있습니다:
이것은 항상 두 개의 대문자로 시작하며, 그 다음에는 하이픈, 6개의 숫자가 옵니다.
제품 번호의 예는 다음과 같습니다:
MS-863398
DS-452829
이 제품 번호를 추출하기 위해, 다음의 정규 표현식을 사용할 수 있습니다:
PaperOffice는 귀하의 문서를 디지털화하고 귀하의 시스템으로 통합하여, 수많은 코드를 작성하고 관리할 필요 없이 청구서 및 기타 문서에서 데이터 추출을 자동화할 수 있습니다.
귀하의 사용 사례에 대해 논의하고 PaperOffice가 디지털 시대에 더 경쟁력 있게 도와드릴 수 있는 방법에 대해 자세히 알아보려면 저희에게 연락하십시오.
시작하는 것은 생각보다 쉽습니다.
아직도 성공 시키지 못할까 걱정이 되시나요? 고객들이 PaperOffice를 비즈니스에 통합한 사례 연구를 읽어보고 그 간편함에 대해 스스로 확인하거나 시범 설치를 간단히 신청하십시오.
"마침내, 우리는 주제에 대해 자주 묻는 몇 가지 질문에 대답합니다." "정규 표현식 REGEX를 사용한 자동 데이터 수집 및 추출 (2부)":
이 질문에 대한 빠르고 간단한 답은: 모든 기업에게 적합합니다. 종이 없는 사무실은 중소기업, 스타트업에서 대기업에 이르기까지 모든 산업과 규모의 기업에 이익이 됩니다. 그러나 특히 중소기업에게는 전환이 매우 가치가 있습니다: 처리 작업과 비용을 줄임으로써 추가 성장 촉진제에 필요한 예산이 확보됩니다.
아니요. 2018년 GDPR이 최종 시행된 후 데이터 보호가 중요한 요소가 되었습니다. DMS 솔루션과 DMS 소프트웨어는 종종 민감한 개인 데이터를 포함하는 문서를 처리, 관리 및 저장하는 데 사용됩니다. GDPR 위반 시 법률은 높은 벌금을 부과합니다.
디지털으로 일하고 오래된 문서를 새로운 시대로 가져가는 것은 미래에 엄청난 시간, 돈, 신경을 절약할 수 있는 최고의 주요 투자일 것입니다.
디지털화의 모든 이점을 활용하기 위해 자체 IT 전문가가 필요하지 않습니다.
당신이 필요한 것은 경험을 바탕으로 필요한 것을 정확히 구현할 수 있는 올바른 파트너입니다. 공포를 조장하는 사람을 피하고, 실제로 테스트해보지 않은 멋진 파워포인트 프레젠테이션 대신 테스트 실행을 선택하십시오.
경험상 거의 모든 사업체, 회사, 기업에는 대형 복사기가 있으며, 이 기기는 그 가능성을 충분히 활용하지 못하고 있습니다. 이 장치는 대량 스캔을 좋아하며, 클립에 대한 내성이 강하고 스캐너 투자가 필요 없는 디지털 시작을 위한 기초가 될 수 있습니다.
제조사에게 무자비하게 의존하는 DMS/ECM 시스템의 비용 함정을 피하십시오. 문서를 직접 학습시키고 설정을 수행하는 등의 자체 관리 가능성에 대해 타협하지 마십시오. 도움이 필요하면 제조업체가 기꺼이 도와드리지만, 스스로 독립적이고 자립적인 상태를 유지하십시오.
미래에는 모든 과정이 동일하게 수행되지만 완전 자동화됩니다.
계산서가 들어오면 워크플로우가 시작되어 모든 것이 한 번 정의된 경로를 따라 진행됩니다.
1000개의 파일 폴더를 모두 검색해야 하나요? 문제 없습니다. 당신에게는 자체 Google이 있습니다!