正規表現(REGEX)を使用してデータの自動収集と抽出を行う(パート2)
最大限の割引オファー
独占的な内部ニュース
無料のボーナスアップグレード
最大限の割引オファー
独占的な内部ニュース
無料のボーナスアップグレード
友情-信頼-約束
他の人物にメールアドレスを提供することはありません。また、すべてのメールには1クリックでの解除のためのリンクも含まれています。
現在の記事では、正規表現を使用して、自動化されたドキュメント処理の利点を活用する方法について説明します。これは、特に企業の文書に適用されます。
正確な正規表現の例を示し、これらの意味と使用方法をステップバイステップで説明します。
これにより、業務効率を高め、高い精度により人為的なエラーを減らし、現在のコストを削減し、データの整合性を保ち、データのセキュリティを向上させることができます。
この記事は、スマートなドキュメント処理についての最初のパートを拡張しており、こちらで記事に直接アクセスできます。
特定のデータ要素のドキュメントからの抽出は非常に高価で時間のかかる作業です。ドキュメントのスキャンは多くの場合、大規模なアウトソーシングデータキャプチャ会社に手入力されるため、データのセキュリティが危険に晒される可能性があります。
ただし、このアプローチには次のようないくつかの欠点があります:
さらにもういくつか。
スキャンの普及にもかかわらず、ビジネストランザクションの大部分はまだ紙ベースの文書に基づいています。請求書の85%はまだ紙で発行されていると見積もられています。
また、大量の保管が必要な保管されている紙もあります!
正規表現(またはRegex)は、テキストの検索と操作に使用される強力なツールです。テキスト内の複雑なパターンを検出し、変更することができます。
正規表現は、通常の文字と特殊なメタ文字の組み合わせで構成され、特別な機能を持つ。
正規表現は、テキストの置換や操作にも使用できます。たとえば、正規表現は次のように使用できます。
テキスト処理とタスクの自動化には非常に強力なツールです。
さまざまなタイプと命名規則の異なるデジタルドキュメントの増加により、特定のコンテンツからのドキュメント情報の検索と抽出プロセスが困難になっています。特に非分類のドキュメントの場合、検索は不正確で時間がかかります。
これにより、ドキュメントの正規表現という指定された文字列が検索および抽出されます。正規表現は、情報内のパターンを定義するための方法です。
正規表現メソッドは、抽出する値の位置が変動する可能性があるドキュメントに最適です。
一覧は、ComDeskで簡単な正規表現があります。
正規表現は、検索するパターンに応じて異なる方法で構築できます。
メタ文字を使用して、引数.、*、+、?、^、$、[]と[a-z]を使用して特定の種類の文字またはパターンを表します。
オプションパーツを使用します。クエスチョンマーク(?)またはアスタリスク(*)を使用して、パターンの一部を省略可能にします。
グループを使用します。丸括弧を使用して、パターンの一部をグループ化し、単位として扱います。
正規表現のルールは、プログラミング言語によって異なる場合があるため、使用されているツールのドキュメントを読むことが重要です。PaperOfficeで使用するための正規表現は、ECMAScriptおよびPCRE2と互換性がある必要があります。
ヒント
「ドキュメントの自動アーカイブ/ REGEX&変数/請求書の自動処理」に関するビデオもあり、このプロセスを簡単に理解できます。
別の例として、文書からオーダー番号を抽出したいと思います。
私たちの文書には以下の形式でオーダー番号が表示されます。
オーダー番号は常に大文字のXYBで始まり、その後にハイフン、8桁の数字、さらにハイフンが続き、最後に3つのランダムな大文字があります。
オーダー番号の例は次のとおりです:
XYB-12316723-LSH
XYB-98456723-JRD
このオーダー番号を抽出するために、次の正規表現を使用できます:
この表現を個別に見ていきましょう。
まず、ハイフン記号で始まる最初の3つの大文字を検索します:XYB-
それから、ハイフンに続く8桁の数字を検索します:\d{8}-
すでに説明したように、\dは0から9までの数字を表し、\d{8}は8桁の数値を検索します。
最後に、3つの任意の大文字を検索します:[A-Z]{3}
このように、以下のオーダー番号の場合、
XYB-12316723-LSH
XYB-98456723-JRD
XYB-975432671829
ZYB-12342176-ZHD
PaperOfficeは最初の2つ、つまりXYB-12316723-LSHとXYB-98456723-JRDを認識します。
このサンプルには、4つの例と共に説明した正規表現へのリンクも用意してあります。指定されたオーダー番号のうち、要件に合致するのは2つだけであることがわかります。
文書の商品番号は以下の形式で表示されます:
商品番号は常に2つの大文字で始まり、その後にハイフン、6桁の数字が続きます。
商品番号の例は次のとおりです:
MS-863398
DS-452829
この商品番号を抽出するために、次の正規表現を使用できます:
PaperOfficeは、コードを数多く記述してメンテナンスする必要なく、請求書や他の文書からのデータ抽出を自動化するために、ドキュメントをデジタル化しシステムに統合することができます。
アプリケーションのケースやPaperOfficeがデジタル時代にどのように競争力を持って助けるかについて詳細をお聞きするには、お気軽にお問い合わせください。
始めるのは思っているより簡単です。
うまく行かないのではないかと心配していますか? PaperOfficeをビジネスに統合することに関する顧客の事例を読んで、その簡単さをご自身で確認したり、テストインストールを簡単に申し込むことができます。
ERROR: LID-5759 missing
ERROR: LID-6036 missing
ERROR: LID-6035 missing
ERROR: LID-5763 missing
ERROR: LID-6039 missing
ERROR: LID-6035 missing
ERROR: LID-5756 missing
ERROR: LID-6042 missing
ERROR: LID-5803 missing
ERROR: LID-5793 missing
ERROR: LID-6069 missing
ERROR: LID-6070 missing
ERROR: LID-5787 missing
ERROR: LID-6072 missing
ERROR: LID-6035 missing
ERROR: LID-5789 missing
ERROR: LID-6077 missing
ERROR: LID-6070 missing
ERROR: LID-6074 missing
ERROR: LID-5771 missing
ERROR: LID-6075 missing
ERROR: LID-6035 missing
ERROR: LID-5777 missing
ERROR: LID-5759 missing
ERROR: LID-5763 missing
ERROR: LID-5800 missing
ERROR: LID-5769 missing
ERROR: LID-6082 missing
ERROR: LID-6083 missing