正規表現（REGEX）を使用してデータの自動収集と抽出を行う（パート2）

現在の記事では、正規表現を使用して、自動化されたドキュメント処理の利点を活用する方法について説明します。これは、特に企業の文書に適用されます。

正確な正規表現の例を示し、これらの意味と使用方法をステップバイステップで説明します。

これにより、業務効率を高め、高い精度により人為的なエラーを減らし、現在のコストを削減し、データの整合性を保ち、データのセキュリティを向上させることができます。

この記事は、スマートなドキュメント処理についての最初のパートを拡張しており、こちらで記事に直接アクセスできます。

特定のデータ要素のドキュメントからの抽出は非常に高価で時間のかかる作業です。ドキュメントのスキャンは多くの場合、大規模なアウトソーシングデータキャプチャ会社に手入力されるため、データのセキュリティが危険に晒される可能性があります。

ただし、このアプローチには次のようないくつかの欠点があります：

データのセキュリティが危険に晒される可能性がある
ワークフロープロセスに遅延が導入される
自動抽出と比較して、手動索引付けは遅いプロセスです
手動のインデックス付けは大規模なプロジェクトではスケーラブルではありません
手動のインデックス付けはデータにエラーを導入する可能性があります
文書が変更されると、全プロセスが最初からやり直しになります

さらにもういくつか。

スキャンの普及にもかかわらず、ビジネストランザクションの大部分はまだ紙ベースの文書に基づいています。請求書の85％はまだ紙で発行されていると見積もられています。

また、大量の保管が必要な保管されている紙もあります！

正規表現とは何ですか？

正規表現（またはRegex）は、テキストの検索と操作に使用される強力なツールです。テキスト内の複雑なパターンを検出し、変更することができます。

正規表現は、通常の文字と特殊なメタ文字の組み合わせで構成され、特別な機能を持つ。

正規表現は、テキストの置換や操作にも使用できます。たとえば、正規表現は次のように使用できます。

テキスト処理とタスクの自動化には非常に強力なツールです。

正規表現は企業の自動化にどのように役立ちますか？

さまざまなタイプと命名規則の異なるデジタルドキュメントの増加により、特定のコンテンツからのドキュメント情報の検索と抽出プロセスが困難になっています。特に非分類のドキュメントの場合、検索は不正確で時間がかかります。

正規表現（Regex）は、ドキュメント内の特定のデータを検索、抽出、置換するための高速で強力な方法を提供します。正規表現は、基本的には検索パターンを記述するための特殊なテキスト文字列です。

これにより、ドキュメントの正規表現という指定された文字列が検索および抽出されます。正規表現は、情報内のパターンを定義するための方法です。

正規表現メソッドは、抽出する値の位置が変動する可能性があるドキュメントに最適です。

一覧は、ComDeskで簡単な正規表現があります。

Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

どのように正規表現を構築できますか？

正規表現は、検索するパターンに応じて異なる方法で構築できます。

メタ文字を使用して、引数.、*、+、?、^、$、[]と[a-z]を使用して特定の種類の文字またはパターンを表します。

オプションパーツを使用します。クエスチョンマーク（？）またはアスタリスク（*）を使用して、パターンの一部を省略可能にします。

グループを使用します。丸括弧を使用して、パターンの一部をグループ化し、単位として扱います。

正規表現のルールは、プログラミング言語によって異なる場合があるため、使用されているツールのドキュメントを読むことが重要です。PaperOfficeで使用するための正規表現は、ECMAScriptおよびPCRE2と互換性がある必要があります。

ヒント

「ドキュメントの自動アーカイブ/ REGEX＆変数/請求書の自動処理」に関するビデオもあり、このプロセスを簡単に理解できます。

正規表現によるオーダー番号の抽出

別の例として、文書からオーダー番号を抽出したいと思います。

Variablen werden aus dem Dokument ausgelesen und bereitgestellt

Auftragsnummern werden aus dem Dokument extrahiert

私たちの文書には以下の形式でオーダー番号が表示されます。

オーダー番号は常に大文字のXYBで始まり、その後にハイフン、8桁の数字、さらにハイフンが続き、最後に3つのランダムな大文字があります。

オーダー番号の例は次のとおりです：

XYB-12316723-LSH

XYB-98456723-JRD

このオーダー番号を抽出するために、次の正規表現を使用できます：

XYB-\d{8}-[A-Z]{3}

この表現を個別に見ていきましょう。

まず、ハイフン記号で始まる最初の3つの大文字を検索します：XYB-

XYB-\d{8}-[A-Z]{3}

それから、ハイフンに続く8桁の数字を検索します：\d{8}-

XYB-\d{8}-[A-Z]{3}

すでに説明したように、\dは0から9までの数字を表し、\d{8}は8桁の数値を検索します。

最後に、3つの任意の大文字を検索します：[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

このように、以下のオーダー番号の場合、

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

PaperOfficeは最初の2つ、つまりXYB-12316723-LSHとXYB-98456723-JRDを認識します。

このサンプルには、4つの例と共に説明した正規表現へのリンクも用意してあります。指定されたオーダー番号のうち、要件に合致するのは2つだけであることがわかります。

正規表現による商品番号の抽出

文書の商品番号は以下の形式で表示されます：

商品番号は常に2つの大文字で始まり、その後にハイフン、6桁の数字が続きます。

PaperOffice Rechnung mit Regex zu auslesen

Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

商品番号の例は次のとおりです：

MS-863398

DS-452829

この商品番号を抽出するために、次の正規表現を使用できます：

[A-Z]{2}-\d{6}

PaperOfficeは、コードを数多く記述してメンテナンスする必要なく、請求書や他の文書からのデータ抽出を自動化するために、ドキュメントをデジタル化しシステムに統合することができます。

アプリケーションのケースやPaperOfficeがデジタル時代にどのように競争力を持って助けるかについて詳細をお聞きするには、お気軽にお問い合わせください。

始めるのは思っているより簡単です。

うまく行かないのではないかと心配していますか？ PaperOfficeをビジネスに統合することに関する顧客の事例を読んで、その簡単さをご自身で確認したり、テストインストールを簡単に申し込むことができます。

正規表現（REGEX）を使用してデータの自動収集と抽出を行う（パート2）

正規表現とは何ですか？

正規表現は企業の自動化にどのように役立ちますか？

どのように正規表現を構築できますか？

正規表現によるオーダー番号の抽出

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

XYB-\d{8}-[A-Z]{3}

正規表現による商品番号の抽出

[A-Z]{2}-\d{6}

ERROR: LID-5754 missing

ERROR: LID-5761 missing

ERROR: LID-5758 missing

ERROR: LID-5797 missing

ERROR: LID-5791 missing

ERROR: LID-5785 missing

ERROR: LID-5790 missing

ERROR: LID-5780 missing

ERROR: LID-5758 missing

ERROR: LID-5775 missing

ERROR: LID-6029 missing

ERROR: LID-5764 missing

ERROR: LID-5801 missing

ERROR: LID-5768 missing