نشرة أخبار بيبرأوفيس للمستخدمين المهتمين
نشرة أخبار بيبرأوفيس للمستخدمين المهتمين
نرغب في أن نصبح أصدقاء

أعلى العروض التخفيضية الممكنة

أخبار خاصة للمتابعين الداخليين

ترقيات مجانية للمكافآت

أعلى العروض التخفيضية الممكنة

أخبار خاصة للمتابعين الداخليين

ترقيات مجانية للمكافآت

صداقة ثقة كلمة شرف
لن نشارك أبدًا عنوان بريدك الإلكتروني مع أي شخص آخر وكل رسالة بريد إلكتروني تتضمن رابطًا لإلغاء الاشتراك بنقرة واحدة.

معالجة المستندات الذكية بشكل صحيح


نصيحة مهنية

اكتساب البيانات الآلي باستخدام التعبيرات العادية: كيفية معالجة كميات كبيرة من البيانات بكفاءة باستخدام التعبيرات العادية.


المفتاح لاكتساب البيانات الآلي واستخراج البيانات.

في المقالة الحالية، سنوضح لك كيفية استخدام التعبيرات العادية للاستفادة منها في معالجة المستندات الآلية. ينطبق هذا بشكل خاص على مستندات الشركات من أي قطاع.

سنوضح لك أمثلة دقيقة على التعبيرات العادية ونشرح خطوة بخطوة ما تعنيه وكيف يمكنك استخدامها.

بهذه الطريقة، يمكنك زيادة كفاءة العمل الخاصة بك، وتقليل الأخطاء البشرية من خلال دقة أعلى، وخفض التكاليف الحالية، والحفاظ على سلامة البيانات وتحسين أمان البيانات.

المقالة الحالية توسع الجزء الأول حول معالجة المستندات الذكية، هنا تجد المقالة مباشرة.

يمكن أن يكون استخراج عناصر بيانات محددة من المستندات مهمة مكلفة للغاية وتستغرق وقتًا طويلاً. غالبًا ما يتم إرسال نسخ من المستندات إلى شركات كبيرة لجمع البيانات حيث يتم إدخال البيانات يدويًا.

ومع ذلك، هناك عيوب مختلفة لهذا النهج، كما يلي:

  • يمكن أن يتعرض أمان المستند للخطر
  • يُدخل تأخير في عمليات سير العمل
  • بالمقارنة مع الاستخراج التلقائي، تكون الفهرسة اليدوية عملية بطيئة
  • لا يمكن توسيع الفهرسة اليدوية بشكل جيد في المشاريع الكبيرة
  • من الممكن أن تُدخل الفهرسة اليدوية الأخطاء إلى البيانات
  • إذا تم تعديل المستند، يجب أن تبدأ العملية بالكامل من جديد

وهناك العديد من الأشياء الأخرى.

على الرغم من انتشار عملية المسح الضوئي، فإن جزءًا كبيرًا من المعاملات التجارية لا يزال يعتمد على المستندات الورقية. يُقدر أن 85٪ من الفواتير لا تزال تُصدر على الورق.

بالإضافة إلى ذلك، هناك جبال من الأوراق الموجودة التي يجب تخزينها في مستودعات ضخمة!

ما هو تعبير عادي؟

التعبيرات العادية، المعروفة أيضًا باسم "Regex"، هي أداة قوية للبحث والتلاعب بالنصوص. تتيح لك التعرف على الأنماط المعقدة في النصوص وتحريرها.

يتكون التعبير العادي من مزيج من الحروف العادية والرموز الخاصة التي تؤدي وظائف خاصة.

يمكن أيضًا استخدام التعبيرات العادية لاستبدال النص أو التلاعب به. على سبيل المثال، يمكن استخدام تعبير عادي.

إنها أداة قوية للغاية لمعالجة النصوص وأتمتة المهام.

كيف يمكن أن تساعد التعبيرات العادية في أتمتة الأعمال؟

يزداد تعقيد عملية البحث واستخراج معلومات المستندات مع زيادة عدد المستندات الرقمية بأنواع وقواعد تسمية مختلفة وبدون نظام بحث كافٍ، وخاصة عندما تكون المستندات غير مصنفة، يصبح البحث غير دقيق ويستغرق وقتًا طويلاً.

تقدم التعبيرات العادية (Regex) طريقة سريعة وقوية للبحث واستخراج واستبدال بيانات محددة في المستندات. التعبيرات العادية هي في الأساس سلسلة نصوص خاصة لوصف نمط بحث معين.

بهذه الطريقة، يتم البحث واستخراج محتوى المستند وفقًا لسلسلة معينة من الأحرف.التعبيرات العادية هي وسيلة لتحديد الأنماط في المعلومات باستخدام رموز خاصة.

تعد طريقة Regex أكثر ملاءمة للمستندات التي يمكن أن تتغير فيها مواضع القيم المطلوب استخراجها ولا يمكن لنماذج المستندات البسيطة تغطيتها.

يمكنك العثور على قائمة بتعبيرات بسيطة في ComDesk الخاص بنا.

PaperOffice Regex Beispielsammlung
Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

كيف يمكنني تكوين تعبيرات عادية؟

يمكن تكوين التعبيرات العادية بطرق متنوعة، اعتمادًا على نوع النمط المطلوب البحث عنه.

استخدام الرموز الخاصة، مثل .، *، +، ?، ^، $، [] و [a-z] لتمثيل أنواع معينة من الأحرف أو الأنماط.

استخدام الأجزاء الاختيارية: استخدم علامة الاستفهام (?) أو علامة النجمة (*) لجعل أجزاء من النمط اختيارية.

استخدام المجموعات: استخدم الأقواس المستديرة لتجميع أجزاء النمط ومعاملتها كوحدة واحدة.

من المهم ملاحظة أن القواعد الخاصة بالتعبيرات العادية قد تختلف اعتمادًا على لغة البرمجة. لذلك من المهم قراءة توثيقات الأدوات المستخدمة. يجب أن تكون تعبيرات RegEx الخاصة بـ PaperOffice متوافقة مع ECMAScript و PCRE2.

نصيحة

حول موضوع "أتمتة حفظ المستندات / REGEX & المتغيرات / أتمتة معالجة الفواتير" هناك أيضًا فيديو على YouTube يشرح هذه العملية بسهولة وبشكل مفهوم:

كيف أستخرج المعلومات من مستندي باستخدام REGEX؟

أمثلة عملية

في المقال الحالي نوضح لكم كيف يمكنكم بفضل التعبيرات العادية متعددة العناصر في PaperOffice استخراج أي بيانات من المستند وتخزينها تلقائيًا كالكلمات الدلالية للمستند.

أنشأنا فيما يلي مستندًا نموذجيًا يحتوي على تاريخ محدد. في هذا المستند، نحن نتعامل مع فاتورة. يتم تنسيق نمط التاريخ في مستندنا كما يلي:

PaperOffice Rechnung mit Regex zu auslesen
Informationen automatisiert aus Rechnungen extrahieren

شهر مكوّن من حروف، ولكن الحرف الأول دائمًا كبير، يليه مسافة، ثم اليوم يليه فاصلة، ثم مسافة أخرى، ثم السنة.

على سبيل المثال: 20 Sep 2019 أو 05 Mär 2022


لاستخراج هذا التاريخ، يمكننا استخدام التعبير العادي (REGEX) التالي:

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

دعونا نحلل التعبير إلى مجموعات فردية. هذه المجموعات تكون مفصولة بأقواس بسيطة ().

في المجموعة الأولى نبحث عن حروف الثلاثة الأشهر: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

استخراج اسم الشهر

  • [A-Z] تشير سلسلة الأحرف هذه إلى أننا نبحث عن حرف كبير من A-Z. على سبيل المثال الحرف „S“ من Sept. يجب ملاحظة أن الحروف الكبيرة والصغيرة تُعامل بشكل منفصل.
  • [a-zä]{2} تشير سلسلة الأحرف هذه إلى أننا نبحث عن حرفين صغيرين من a-z وأيضًا ä (لشهر مارس في اللغة الألمانية „März“). سيكون ذلك ep من „Sep“ أو är من الألمانية „Mär“.

ثم نبحث عن مسافة باستخدام سلسلة الأحرف التالية: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

استخراج اليوم

في المجموعة الثانية نبحث عن اسم اليوم بالأرقام: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

يجب فصل اسم اليوم بتعليمات ثلاث.
لأننا لا نعرف أي تاريخ قد يكون في المستند، يمكن أن يكون اليوم الأول (01) أو حتى اليوم الأخير (31) للشهر، لذا يجب تسمية خيارات متعددة كما هو مطلوب.
هذه الخيارات تكون مفصولة بعلامة „|“.
مثال: (1|2|3) = 1 أو 2 أو 3.

في أقواس مربعة، تتبع عدة حروف مسموح بها. عدة أقواس مربعة تشير إلى عدة حروف.إذا كان تعبير يصف عدة حروف، يتم وضعها متتابعة. ثم يتم مقارنة الإدخال من اليسار إلى اليمين مع التعبير الخاص بكم.

بالطبع، ليس من الضروري دائمًا ذكر جميع الأرقام. ككل، يشير التعبير بأكمله ذو الأقواس البسيطة إلى حرف واحد فقط.

  • 0[1-9] تشير سلسلة الأحرف هذه إلى أن الرقم يمكن أن يبدأ بـ "0"، متبوعًا برقم من 1 إلى 9. نحصل إذًا على أي رقم من 01 – 09.
  • تبحث سلسلة الأحرف عن نمط رقمي يبدأ بصفر. إذا كان مستندكم عادة يحتوي على تاريخ "5. مارس 2022"، أي بدون وضع الرقم "0" قبل الرقم "5"، يتم حذف "0" من سلسلة الأحرف.

  • [12][0-9] تشير سلسلة الأحرف هذه إلى أن الرقم قد يبدأ بـ "1" أو حتى "2"، متبوعًا بأي رقم من 0 إلى 9. يمكن أن يكون الناتج أي رقم من 10 - 29.
  • 3[01] تشير سلسلة الأحرف هذه إلى أن الرقم قد يبدأ بـ "3"، متبوعًا بـ "0" أو "1". يمكن أن يكون الناتج 30 أو 31.

بعد تحديد الخيارات الخاصة باليوم، يجب تحديد التعبير للسنة.

نبحث الآن عن الفاصلة والمسافة: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

استخراج السنة

في المجموعة الأخيرة نبحث عن السنة: (20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

نبدأ ببحثنا عن أي سنة، ولكننا نعرف أن السنة ستكون ≥ 2000.

  • 20 تشير سلسلة الأحرف هذه إلى أننا نبحث عن أي سنة تبدأ بالرقمين 20.
  • \d{2} تشير سلسلة الأحرف هذه إلى أننا نبحث عن رقمين، من "00" إلى "99".

يشير الرمز \d إلى رقم بين 0 و 9، بينما يبحث الرمز \d{2} عن رقمين.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Variablen werden aus dem Dokument ausgelesen und bereitgestellt

عند تطبيق التعبير العادي في PaperOffice، ستكون النتيجة النهائية هي التاريخ „20 Sep 2019“.

بهذه الطريقة، يمكن استخراج أي تاريخ من مستند دون الحاجة إلى معرفة القيمة الأصلية. يمكن استخدام هذه المجموعات في أي مكان آخر ونقلها بحرية لقراءة صيغ تواريخ أخرى.

مثال آخر:

PaperOffice Rechnung 2 mit Regex zu auslesen
Rechnungen mit verschiedenen Formaten können leicht ausgelesen werden

يبدأ التاريخ باليوم، يليه الشهر، المكوّن من حروف، ولكن الحرف الأول دائمًا كبير، يليه نقطة، ثم مسافة أخرى، ثم السنة.لاستخراج هذا التاريخ، يمكن استخدام التعبير العادي (REGEX) الذي تم شرحه للتو، مع إضافة تكملة إضافية، لأن المثال الثاني يتضمن نقطة بعد الشهر.

يمكن التعبير عن هذه النقطة بسلسلة الأحرف التالية: \.

بالتالي، يكون التعبير الكامل على النحو التالي:

(0[1-9]|[12][0-9]|3[01])\s([A-Z][a-zä]{2})\.\s(20\d{2})

يمكنكم دائماً التحقق من صحة Regex الذي أنشأتموه عن طريق إدخال النص الخاص بكم مع Regex في الموقع https://regex101.com. لن يتحقق Regex101 فقط من صحة Regex الخاص بكم، بل سيشرح لكم التعبير العادي بشكل واسع.

وبذلك يمكنكم استخدام مختلف مجموعات الرموز لأي شيء.

قراءة رقم الطلب بفضل REGEX

كمثال آخر، نريد قراءة رقم الطلب من المستند.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Auftragsnummern werden aus dem Dokument extrahiert

رقم الطلب في مستندنا مُصمم كما يلي:

يبدأ دائماً بالأحرف الكبيرة XYB، ثم يتبعه شرطة، ثم 8 أرقام، ثم شرطة أخرى وفي النهاية 3 أحرف كبيرة عشوائية.

أمثلة على أرقام الطلبات ستكون:

XYB-12316723-LSH

XYB-98456723-JRD

لاستخراج رقم الطلب هذا، يمكننا استخدام التعبير النمطي التالي:

XYB-\d{8}-[A-Z]{3}

لنقم بتحليل التعبير بشكل فردي.

أولاً نبحث بالتحديد عن أول 3 أحرف كبيرة مع رمز الشرطة: XYB-

XYB-\d{8}-[A-Z]{3}

ثم نبحث عن 8 أرقام يتبعها شرطة أخرى: \d{8}-

XYB-\d{8}-[A-Z]{3}

الرمز \d، كما أوضحنا سابقاً، يمثل رقماً بين 0 و 9، والرمز \d{8} يبحث عن رقم مكون من ثمانية خانات.

وأخيراً نبحث عن 3 أحرف كبيرة من أي نوع: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

وبهذا سيستطيع PaperOffice من الأرقام التالية:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

التعرف على أول رقمين XYB-12316723-LSH و XYB-98456723-JRD

تمييزهما.

لقد أعددنا رابطاً على Regex101 لهذا المثال، حيث يتم سرد التعبير النمطي الموضح آنفاً مع 4 أمثلة. سترى أن رقمين فقط من الأرقام المقدمة تتوافق مع متطلباتنا.

قراءة رقم المقال بفضل REGEX

رقم المقال في مستندنا مُصمم كما يلي:

يبدأ دائماً بحرفين كبيرين، ثم شرطة، ثم 6 أرقام.

PaperOffice Rechnung mit Regex zu auslesen
Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

أمثلة على أرقام المقالات ستكون:

MS-863398

DS-452829

لاستخراج هذه الأرقام، يمكننا استخدام التعبير النمطي التالي:

[A-Z]{2}-\d{6}

يمكن لـ PaperOffice رقمنة مستنداتك ودمجها في أنظمتك، لأتمتة استخراج البيانات من الفواتير والمستندات الأخرى، دون الحاجة إلى كتابة أو صيانة أكواد عديدة.

تواصل معنا للتحدث عن حالات استخدامك ولمعرفة المزيد حول كيفية مساعدة PaperOffice لك في أن تصبح أكثر تنافسية في العصر الرقمي.

البداية أسهل مما تتوقع.

هل ما زلت متخوفاً من أنك لن تتمكن من ذلك؟ اقرأ دراسات حالة لعملائنا حول تكامل PaperOffice في حياتهم التجارية واقتناع بنفسك بالسهولة أو ببساطة طلب تركيب تجريبي.

FAQs

أخيرًا، نجيب على بعض الأسئلة المطروحة بشكل متكرر حول هذا الموضوع. "استخدام التعبيرات العادية REGEX لالتقاط البيانات واستخراجها تلقائيًا (الجزء 2)":

لمن يناسب المكتب الخالي من الورق؟

الإجابة السريعة والبسيطة على هذا السؤال هي: لكل شركة. جميع القطاعات والأحجام في الشركات تستفيد من المكتب الخالي من الورق، من الشركات الصغيرة والمتوسطة إلى الشركات الناشئة وحتى الكبيرة. لكن التغيير يكون ذا قيمة خاصة للشركات الصغيرة والمتوسطة: من خلال تقليل الجهود والتكاليف المطلوبة، يتوافر الميزانية اللازمة لمزيد من محفزات النمو.

هل يمكنني استخدام موفر DMS قائم على السحابة لمكتبي الخالي من الورق في الشركة؟

لا. عامل آخر ، والذي أصبح في الآونة الأخيرة منذ دخول اللائحة العامة لحماية البيانات (DSGVO) حيز التنفيذ النهائي في عام 2018 ، هو حماية البيانات. يتم استخدام حلول وبرامج DMS لمعالجة وإدارة وتخزين المستندات التي غالبًا ما تحتوي على بيانات شخصية حساسة. في حالة انتهاك اللائحة العامة لحماية البيانات (DSGVO) ، يفرض المشرع غرامات كبيرة.

الاستنتاج

  • فوائد تبرر الجهد والتكلفة

    العمل بشكل رقمي وجلب المستندات القديمة إلى العصر الجديد سيكون أفضل استثمار رئيسي لتوفير الكثير من الوقت، والمال، والأعصاب في المستقبل.

  • تحتاج إلى شخص يعرف ما يفعله

    لست بحاجة إلى متخصص تكنولوجيا المعلومات للاستفادة من جميع فوائد الرقمنة.
    ما تحتاجه هو الشريك المناسب بجانبك الذي من خلال تجاربه يمكنه تنفيذ ما تحتاجه بالضبط. تجنب مروجي الذعر وحدد التجارب بدلاً من العروض التقديمية الجميلة في PowerPoint دون تجربتها فعليًا.

  • الأجهزة موجودة بالفعل في الغالب

    من واقع الخبرة، تكاد تكون كل شركة، ومؤسسة، وشركة تمتلك ماكينات نسخ كبيرة لا تستغل إمكانياتها. تحب هذه الآلات المسح الضوئي الجماعي، وتتسامح مع المشابك المكتبية، ويمكن أن تكون القاعدة لبدء العمل الرقمي دون استثمار في أجهزة الماسح الضوئي.

  • أرخص مما تتوقع مع DMS المناسب

    تجنب فخ التكاليف مع أنظمة DMS / ECM حيث تكون تحت رحمة الشركات المصنعة بلا رحمة. لا تقم بأي تنازلات فيما يتعلق بقدرات الإدارة الذاتية مثل تعلم المستندات بنفسك وضبط الإعدادات. إذا كنت بحاجة إلى مساعدة، فإن الشركة المصنعة ستساعدك بكل سرور، لكن حافظ على استقلاليتك واعتمادك على الذات.

  • الأتمتة الرقمية هي المستقبل

    ستعمل العمليات في المستقبل بنفس الطريقة تمامًا، ولكن بشكل تلقائي تمامًا.
    هل الفاتورة تصل؟ يقوم سير العمل بالاستجابة وكل شيء يتبع مجراه المحدد مرة واحدة.
    البحث في جميع 1000 ملف؟ لا مشكلة، لأن لديك جوجل الخاص بك!

تحل PaperOffice كل مشكلة: مضمونة.

دراسة حالة

خدمة إدارة الميراث الفعالة مع PaperOffice: تكامل ناجح وحماية ضد هجمات الفدية.