استخدام التعبيرات العادية REGEX لالتقاط البيانات واستخراجها تلقائيًا (الجزء 2)
إتقان التعابير النمطية: دليل لإنشاء تعابير فعالة وقوية
المفتاح لاكتساب البيانات الآلي واستخراج البيانات.
المفتاح لاكتساب البيانات الآلي واستخراج البيانات.
أعلى العروض التخفيضية الممكنة
أخبار خاصة للمتابعين الداخليين
ترقيات مجانية للمكافآت
أعلى العروض التخفيضية الممكنة
أخبار خاصة للمتابعين الداخليين
ترقيات مجانية للمكافآت
صداقة ثقة كلمة شرف
لن نشارك أبدًا عنوان بريدك الإلكتروني مع أي شخص آخر وكل رسالة بريد إلكتروني تتضمن رابطًا لإلغاء الاشتراك بنقرة واحدة.
نصيحة مهنية
اكتساب البيانات الآلي باستخدام التعبيرات العادية: كيفية معالجة كميات كبيرة من البيانات بكفاءة باستخدام التعبيرات العادية.في المقالة الحالية، سنوضح لك كيفية استخدام التعبيرات العادية للاستفادة منها في معالجة المستندات الآلية. ينطبق هذا بشكل خاص على مستندات الشركات من أي قطاع.
سنوضح لك أمثلة دقيقة على التعبيرات العادية ونشرح خطوة بخطوة ما تعنيه وكيف يمكنك استخدامها.
بهذه الطريقة، يمكنك زيادة كفاءة العمل الخاصة بك، وتقليل الأخطاء البشرية من خلال دقة أعلى، وخفض التكاليف الحالية، والحفاظ على سلامة البيانات وتحسين أمان البيانات.
المقالة الحالية توسع الجزء الأول حول معالجة المستندات الذكية، هنا تجد المقالة مباشرة.
يمكن أن يكون استخراج عناصر بيانات محددة من المستندات مهمة مكلفة للغاية وتستغرق وقتًا طويلاً. غالبًا ما يتم إرسال نسخ من المستندات إلى شركات كبيرة لجمع البيانات حيث يتم إدخال البيانات يدويًا.
ومع ذلك، هناك عيوب مختلفة لهذا النهج، كما يلي:
وهناك العديد من الأشياء الأخرى.
على الرغم من انتشار عملية المسح الضوئي، فإن جزءًا كبيرًا من المعاملات التجارية لا يزال يعتمد على المستندات الورقية. يُقدر أن 85٪ من الفواتير لا تزال تُصدر على الورق.
بالإضافة إلى ذلك، هناك جبال من الأوراق الموجودة التي يجب تخزينها في مستودعات ضخمة!
التعبيرات العادية، المعروفة أيضًا باسم "Regex"، هي أداة قوية للبحث والتلاعب بالنصوص. تتيح لك التعرف على الأنماط المعقدة في النصوص وتحريرها.
يتكون التعبير العادي من مزيج من الحروف العادية والرموز الخاصة التي تؤدي وظائف خاصة.
يمكن أيضًا استخدام التعبيرات العادية لاستبدال النص أو التلاعب به. على سبيل المثال، يمكن استخدام تعبير عادي.
إنها أداة قوية للغاية لمعالجة النصوص وأتمتة المهام.
يزداد تعقيد عملية البحث واستخراج معلومات المستندات مع زيادة عدد المستندات الرقمية بأنواع وقواعد تسمية مختلفة وبدون نظام بحث كافٍ، وخاصة عندما تكون المستندات غير مصنفة، يصبح البحث غير دقيق ويستغرق وقتًا طويلاً.
بهذه الطريقة، يتم البحث واستخراج محتوى المستند وفقًا لسلسلة معينة من الأحرف.التعبيرات العادية هي وسيلة لتحديد الأنماط في المعلومات باستخدام رموز خاصة.
تعد طريقة Regex أكثر ملاءمة للمستندات التي يمكن أن تتغير فيها مواضع القيم المطلوب استخراجها ولا يمكن لنماذج المستندات البسيطة تغطيتها.
يمكنك العثور على قائمة بتعبيرات بسيطة في ComDesk الخاص بنا.
يمكن تكوين التعبيرات العادية بطرق متنوعة، اعتمادًا على نوع النمط المطلوب البحث عنه.
استخدام الرموز الخاصة، مثل .، *، +، ?، ^، $، [] و [a-z] لتمثيل أنواع معينة من الأحرف أو الأنماط.
استخدام الأجزاء الاختيارية: استخدم علامة الاستفهام (?) أو علامة النجمة (*) لجعل أجزاء من النمط اختيارية.
استخدام المجموعات: استخدم الأقواس المستديرة لتجميع أجزاء النمط ومعاملتها كوحدة واحدة.
من المهم ملاحظة أن القواعد الخاصة بالتعبيرات العادية قد تختلف اعتمادًا على لغة البرمجة. لذلك من المهم قراءة توثيقات الأدوات المستخدمة. يجب أن تكون تعبيرات RegEx الخاصة بـ PaperOffice متوافقة مع ECMAScript و PCRE2.
نصيحة
حول موضوع "أتمتة حفظ المستندات / REGEX & المتغيرات / أتمتة معالجة الفواتير" هناك أيضًا فيديو على YouTube يشرح هذه العملية بسهولة وبشكل مفهوم:
في المقال الحالي نوضح لكم كيف يمكنكم بفضل التعبيرات العادية متعددة العناصر في PaperOffice استخراج أي بيانات من المستند وتخزينها تلقائيًا كالكلمات الدلالية للمستند.
أنشأنا فيما يلي مستندًا نموذجيًا يحتوي على تاريخ محدد. في هذا المستند، نحن نتعامل مع فاتورة. يتم تنسيق نمط التاريخ في مستندنا كما يلي:
شهر مكوّن من حروف، ولكن الحرف الأول دائمًا كبير، يليه مسافة، ثم اليوم يليه فاصلة، ثم مسافة أخرى، ثم السنة.
على سبيل المثال: 20 Sep 2019 أو 05 Mär 2022
لاستخراج هذا التاريخ، يمكننا استخدام التعبير العادي (REGEX) التالي:
دعونا نحلل التعبير إلى مجموعات فردية. هذه المجموعات تكون مفصولة بأقواس بسيطة ().
في المجموعة الأولى نبحث عن حروف الثلاثة الأشهر: ([A-Z][a-zä]{2})
ثم نبحث عن مسافة باستخدام سلسلة الأحرف التالية: \s
في المجموعة الثانية نبحث عن اسم اليوم بالأرقام: (0[1-9]|[12][0-9]|3[01])
يجب فصل اسم اليوم بتعليمات ثلاث.
لأننا لا نعرف أي تاريخ قد يكون في المستند، يمكن أن يكون اليوم الأول (01) أو حتى اليوم الأخير (31) للشهر، لذا يجب تسمية خيارات متعددة كما هو مطلوب.
هذه الخيارات تكون مفصولة بعلامة „|“.
مثال: (1|2|3) = 1 أو 2 أو 3.
في أقواس مربعة، تتبع عدة حروف مسموح بها. عدة أقواس مربعة تشير إلى عدة حروف.إذا كان تعبير يصف عدة حروف، يتم وضعها متتابعة. ثم يتم مقارنة الإدخال من اليسار إلى اليمين مع التعبير الخاص بكم.
بالطبع، ليس من الضروري دائمًا ذكر جميع الأرقام. ككل، يشير التعبير بأكمله ذو الأقواس البسيطة إلى حرف واحد فقط.
تبحث سلسلة الأحرف عن نمط رقمي يبدأ بصفر. إذا كان مستندكم عادة يحتوي على تاريخ "5. مارس 2022"، أي بدون وضع الرقم "0" قبل الرقم "5"، يتم حذف "0" من سلسلة الأحرف.
بعد تحديد الخيارات الخاصة باليوم، يجب تحديد التعبير للسنة.
نبحث الآن عن الفاصلة والمسافة: ,\s
في المجموعة الأخيرة نبحث عن السنة: (20\d{2})
نبدأ ببحثنا عن أي سنة، ولكننا نعرف أن السنة ستكون ≥ 2000.
يشير الرمز \d إلى رقم بين 0 و 9، بينما يبحث الرمز \d{2} عن رقمين.
عند تطبيق التعبير العادي في PaperOffice، ستكون النتيجة النهائية هي التاريخ „20 Sep 2019“.
بهذه الطريقة، يمكن استخراج أي تاريخ من مستند دون الحاجة إلى معرفة القيمة الأصلية. يمكن استخدام هذه المجموعات في أي مكان آخر ونقلها بحرية لقراءة صيغ تواريخ أخرى.
مثال آخر:
يبدأ التاريخ باليوم، يليه الشهر، المكوّن من حروف، ولكن الحرف الأول دائمًا كبير، يليه نقطة، ثم مسافة أخرى، ثم السنة.لاستخراج هذا التاريخ، يمكن استخدام التعبير العادي (REGEX) الذي تم شرحه للتو، مع إضافة تكملة إضافية، لأن المثال الثاني يتضمن نقطة بعد الشهر.
يمكن التعبير عن هذه النقطة بسلسلة الأحرف التالية: \.
بالتالي، يكون التعبير الكامل على النحو التالي:
يمكنكم دائماً التحقق من صحة Regex الذي أنشأتموه عن طريق إدخال النص الخاص بكم مع Regex في الموقع https://regex101.com. لن يتحقق Regex101 فقط من صحة Regex الخاص بكم، بل سيشرح لكم التعبير العادي بشكل واسع.
وبذلك يمكنكم استخدام مختلف مجموعات الرموز لأي شيء.
كمثال آخر، نريد قراءة رقم الطلب من المستند.
رقم الطلب في مستندنا مُصمم كما يلي:
يبدأ دائماً بالأحرف الكبيرة XYB، ثم يتبعه شرطة، ثم 8 أرقام، ثم شرطة أخرى وفي النهاية 3 أحرف كبيرة عشوائية.
أمثلة على أرقام الطلبات ستكون:
XYB-12316723-LSH
XYB-98456723-JRD
لاستخراج رقم الطلب هذا، يمكننا استخدام التعبير النمطي التالي:
لنقم بتحليل التعبير بشكل فردي.
أولاً نبحث بالتحديد عن أول 3 أحرف كبيرة مع رمز الشرطة: XYB-
ثم نبحث عن 8 أرقام يتبعها شرطة أخرى: \d{8}-
الرمز \d، كما أوضحنا سابقاً، يمثل رقماً بين 0 و 9، والرمز \d{8} يبحث عن رقم مكون من ثمانية خانات.
وأخيراً نبحث عن 3 أحرف كبيرة من أي نوع: [A-Z]{3}
وبهذا سيستطيع PaperOffice من الأرقام التالية:
XYB-12316723-LSH
XYB-98456723-JRD
XYB-975432671829
ZYB-12342176-ZHD
التعرف على أول رقمين XYB-12316723-LSH و XYB-98456723-JRD
تمييزهما.
لقد أعددنا رابطاً على Regex101 لهذا المثال، حيث يتم سرد التعبير النمطي الموضح آنفاً مع 4 أمثلة. سترى أن رقمين فقط من الأرقام المقدمة تتوافق مع متطلباتنا.
رقم المقال في مستندنا مُصمم كما يلي:
يبدأ دائماً بحرفين كبيرين، ثم شرطة، ثم 6 أرقام.
أمثلة على أرقام المقالات ستكون:
MS-863398
DS-452829
لاستخراج هذه الأرقام، يمكننا استخدام التعبير النمطي التالي:
يمكن لـ PaperOffice رقمنة مستنداتك ودمجها في أنظمتك، لأتمتة استخراج البيانات من الفواتير والمستندات الأخرى، دون الحاجة إلى كتابة أو صيانة أكواد عديدة.
تواصل معنا للتحدث عن حالات استخدامك ولمعرفة المزيد حول كيفية مساعدة PaperOffice لك في أن تصبح أكثر تنافسية في العصر الرقمي.
البداية أسهل مما تتوقع.
هل ما زلت متخوفاً من أنك لن تتمكن من ذلك؟ اقرأ دراسات حالة لعملائنا حول تكامل PaperOffice في حياتهم التجارية واقتناع بنفسك بالسهولة أو ببساطة طلب تركيب تجريبي.
أخيرًا، نجيب على بعض الأسئلة المطروحة بشكل متكرر حول هذا الموضوع. "استخدام التعبيرات العادية REGEX لالتقاط البيانات واستخراجها تلقائيًا (الجزء 2)":
الإجابة السريعة والبسيطة على هذا السؤال هي: لكل شركة. جميع القطاعات والأحجام في الشركات تستفيد من المكتب الخالي من الورق، من الشركات الصغيرة والمتوسطة إلى الشركات الناشئة وحتى الكبيرة. لكن التغيير يكون ذا قيمة خاصة للشركات الصغيرة والمتوسطة: من خلال تقليل الجهود والتكاليف المطلوبة، يتوافر الميزانية اللازمة لمزيد من محفزات النمو.
لا. عامل آخر ، والذي أصبح في الآونة الأخيرة منذ دخول اللائحة العامة لحماية البيانات (DSGVO) حيز التنفيذ النهائي في عام 2018 ، هو حماية البيانات. يتم استخدام حلول وبرامج DMS لمعالجة وإدارة وتخزين المستندات التي غالبًا ما تحتوي على بيانات شخصية حساسة. في حالة انتهاك اللائحة العامة لحماية البيانات (DSGVO) ، يفرض المشرع غرامات كبيرة.
العمل بشكل رقمي وجلب المستندات القديمة إلى العصر الجديد سيكون أفضل استثمار رئيسي لتوفير الكثير من الوقت، والمال، والأعصاب في المستقبل.
لست بحاجة إلى متخصص تكنولوجيا المعلومات للاستفادة من جميع فوائد الرقمنة.
ما تحتاجه هو الشريك المناسب بجانبك الذي من خلال تجاربه يمكنه تنفيذ ما تحتاجه بالضبط. تجنب مروجي الذعر وحدد التجارب بدلاً من العروض التقديمية الجميلة في PowerPoint دون تجربتها فعليًا.
من واقع الخبرة، تكاد تكون كل شركة، ومؤسسة، وشركة تمتلك ماكينات نسخ كبيرة لا تستغل إمكانياتها. تحب هذه الآلات المسح الضوئي الجماعي، وتتسامح مع المشابك المكتبية، ويمكن أن تكون القاعدة لبدء العمل الرقمي دون استثمار في أجهزة الماسح الضوئي.
تجنب فخ التكاليف مع أنظمة DMS / ECM حيث تكون تحت رحمة الشركات المصنعة بلا رحمة. لا تقم بأي تنازلات فيما يتعلق بقدرات الإدارة الذاتية مثل تعلم المستندات بنفسك وضبط الإعدادات. إذا كنت بحاجة إلى مساعدة، فإن الشركة المصنعة ستساعدك بكل سرور، لكن حافظ على استقلاليتك واعتمادك على الذات.
ستعمل العمليات في المستقبل بنفس الطريقة تمامًا، ولكن بشكل تلقائي تمامًا.
هل الفاتورة تصل؟ يقوم سير العمل بالاستجابة وكل شيء يتبع مجراه المحدد مرة واحدة.
البحث في جميع 1000 ملف؟ لا مشكلة، لأن لديك جوجل الخاص بك!