הניוזלטר המודע של PaperOffice
הניוזלטר המודע של PaperOffice
אנחנו רוצים להיות חברים

הצעות הנחה הגבוהות ביותר

חדשות פנים בלעדיות

שדרגות מתנה חינם

הצעות הנחה הגבוהות ביותר

חדשות פנים בלעדיות

שדרגות מתנה חינם

אמיתות ידידות ביטחון
אנחנו לעולם לא נעביר את כתובת האימייל שלך לכל אחר וכל האימיילים כוללים קישור לביטול ההרשמה בלחיצה אחת.

עיבוד מסמכים חכם לבצע בצורה נכונה


עצה מקצועית

לכידה אוטומטית של נתונים עם ביטויים רגולריים: איך לעבד ביעילות כמות גדולה של נתונים בעזרת ביטויים רגולריים.


המפתח ללכידה אוטומטית של נתונים והפקת נתונים.

במאמר הנוכחי אנו מראים לכם כיצד תוכלו להשתמש בביטויים רגולריים, כדי ליהנות מיתרונותיכם בעיבוד מסמכים אוטומטי. זה נכון במיוחד למסמכים של חברות בכל ענף.

אנו מראים לכם דוגמאות מדויקות של ביטויים רגולריים ומסבירים צעד-אחר-צעד מה משמעותם ואיך גם אתם יכולים להשתמש בהם.

כך תוכלו להגביר את היעילות התפעולית שלכם, להפחית טעויות אנוש על ידי דיוק גבוה יותר, להפחית את העלויות הנוכחיות שלכם, לשמור על שלמות הנתונים ולשפר את אבטחת המידע שלכם.

המאמר הנוכחי מרחיב את החלק הראשון על עיבוד מסמכים אינטליגנטי, כאן תוכלו להגיע ישירות למאמר.

הוצאת נתונים מסוימים ממסמכים יכולה להיות משימה יקרה וגוזלת זמן מאוד. לעתים קרובות, מסרקים של מסמכים נשלחים לחברות העוסקות בקבלת נתונים ידנית גדולה באאוטסורסינג, שבהן הנתונים מוגזים ידנית.

עם זאת, קיימים מספר חסרונות בגישה זו, כדלקמן:

  • אבטחת המסמכים עלולה להיות בסיכון
  • הכנסת עיכוב בתהליכי העבודה
  • בהשוואה להפקה אוטומטית, האינדוקציה הידנית היא תהליך איטי
  • אינדוקציה ידנית לא מתאימה במיוחד לפרויקטים גדולים
  • אינדוקציה ידנית עלולה להכניס שגיאות לנתונים
  • אם המסמך ישתנה, התהליך כולו מתחיל מחדש

וכן רבים נוספים.

למרות השימוש הנפוץ בסריקה, חלק גדול מהעסקאות המסחריות עדיין מבוסס על מסמכים פיזיים. מוערך כי 85 % מהחשבוניות עדיין מופיקות על נייר.

בנוסף, יש הררי נייר קיים שצריך לשמור במאגרים ענקיים!

מהו ביטוי רגולרי?

ביטויים רגולריים, הידועים גם כ-"Regex" הם כלי עוצמתי לחיפוש וטיפול בטקסטים. הם מאפשרים לזהות ולטפל בתבניות מורכבות בטקסטים.

ביטוי רגולרי מורכב משילוב של אותיות רגילות וסימנים מיוחדים שיש להם פונקציות מיוחדות.

ניתן להשתמש בביטויים רגולריים גם כדי להחליף או לטפל בטקסט. לדוגמה, ניתן להשתמש בביטוי רגולרי.

הם כלי מאוד עוצמתי לעיבוד טקסטים ולאוטומציה של משימות.

איך יכולים ביטויים רגולריים לסייע באוטומציה של ארגון?

העלייה במסמכים דיגיטליים עם סוגים שונים, כללים שונים למתן שמות וללא מערכת חיפוש מתאימה מקשה על תהליך החיפוש והקריאה של המידע מהמסמכים של תוכן מסוים, במיוחד אם מדובר במסמכים לא מסווגים, החיפוש נעשה בלתי מדויק ולוקח הרבה זמן.

ביטויים רגולריים (Regex) מציעים שיטה מהירה וחזקה לחפש, להוציא ולהחליף נתונים מסוימים במסמכים. ביטויים רגולריים הם בעצם מחרוזת טקסט מיוחדת לתיאור תבנית חיפוש.

כך מחפשים וקוראים את תוכן המסמך בהתאם למחרוזת נתונה. ביטויים רגולריים הם דרך להגדיר תבניות במידע באמצעות סמלים מיוחדים.

שיטת Regex מתאימה ביותר למסמכים שבהם מיקום הערכים לקריאה משתנה ומספרות מסמכים פשוטות לא יכולות לתפוס.

רשימה של ביטויים פשוטים תוכלו למצוא ב-ComDesk שלנו.

PaperOffice Regex Beispielsammlung
Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

איך אני יכול להרכיב ביטויים רגולריים?

ניתן להרכיב ביטויים רגולריים בדרכים שונות, תלוי בסוג התבנית שמחפשים.

שימוש בסמלי מתא (Meta characters), כמו ., *, +, ?, ^, $, [] ו-[a-z], כדי לייצג סוגים מסוימים של תווים או תבניות.

שימוש בחלקים אופציונליים: השתמשו בשאלה (?) או בכוכב (*) כדי להפוך חלקים מהתבנית לאופציונליים.

שימוש בקבוצות: השתמשו בסוגריים עגולים כדי לקבץ חלקים מהתבנית ולתייחס אליהם כיחידה אחת.

חשוב לציין כי הכללים לביטויים רגולריים עשויים להשתנות בהתאם לשפת התכנות. לכן חשוב לקרוא את התיעוד של הכלים שבהם משתמשים. ה-RegEx שנכתבים עבור PaperOffice חייבים להיות תואמים ל-ECMAScript ו-PCRE2.

טיפ

בנושא "תיק מסמכים אוטומטי / רגקס & משתנים / אוטומציה של חשבוניות" יש גם סרטון ביוטיוב שמסביר את התהליך הזה בקלות ובהבנה:

איך לחלץ מידע מהמסמך שלי באמצעות REGEX?

דוגמאות מעשיות

במאמר הנוכחי נדגים לכם כיצד תוכלו להוציא כל נתון מהמסמך בעזרת ביטויים רגולריים מולטי-איבריים ב-PaperOffice ולהוסיפם אוטומטית כמילות מפתח למסמך.

להלן יצרנו מסמך דוגמה המכיל תאריך מסוים. במסמך זה מדובר בחשבונית. תבנית התאריך במסמך שלנו מעוצבת באופן הבא:

PaperOffice Rechnung mit Regex zu auslesen
Informationen automatisiert aus Rechnungen extrahieren

חודש המורכב מאותיות, אך האות הראשונה תמיד תיכתב באותיות גדולות, ואחריה רווח, ולאחר מכן היום שאחריו פסיק, רווח נוסף ואז השנה.

לדוגמה: Sep 20, 2019 או מאר 05, 2022


כדי לחלץ את התאריך הזה, נוכל להשתמש בביטוי הרגולרי (REGEX) הבא:

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

בואו נפרק את הביטוי לקבוצות נפרדות. קבוצות אלו מופרדות על ידי סוגריים פשוטים ().

בקבוצה הראשונה נחפש את אותי החודש: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

חילוץ שם החודש

  • [A-Z] מחרוזת זו מציינת שאנו מחפשים אותיות גדולות מ-A-Z. לדוגמה האות „S“ מ-Sept. יש לציין שהאותיות הגדולות והקטנות מופרדות.
  • [a-zä]{2} מחרוזת זו מציינת שאנו מחפשים שתי אותיות קטנות מ-a-z גם ä (לשם החודש בשפה הגרמנית „März“). זהו ep מ-„Sep“ או är מהגרמנית „Mär“.

לאחר מכן נחפש רווח עם המחרוזת: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

חילוץ שם היום

בקבוצה השנייה נחפש את היום בתצורה של מספרים: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

יש להפריד את היום לשלוש הנחיות שונות.
מאחר ואיננו יודעים איזה יום מופיע במסמך, ייתכן שמדובר ביום הראשון (01) או ביום האחרון (31) של החודש, לכן יש לציין אפשרויות שונות.
אפשרויות אלו מופרדות על ידי התו „|“.
לדוגמה: (1|2|3) = 1 או 2 או 3.

בסוגריים מרובעים מופיעה רשימת תווי מותרות. מספר סוגריים מרובעים מציינות מספר תווים.אם אפשרות אחת מציינת מספר תווים, הם יתכתבו אחד אחרי השני. לאחר מכן נעשית בדיקה של הביטוי משמאל לימין עם הביטוי שלך.

כמובן שאין צורך לציין כל מספר. הביטוי המקיף יספק תוצאה עבור כל תו.

  • 0[1-9] מחרוזת זו מציינת שמספר יכול להתחיל ב-"0" ואחריו מספר מ- 1 עד 9. כך נקבל מספר מ-01 ועד 09.
  • מחרוזת זו מחפשת תבנית מספר המתחילה באפס. אם במסמך שלך מופיע תאריך כמו "5. מארס 2022", ללא הספרה "0" לפני ה-5, אז ה-"0" תושמט מהמחרוזת.

  • [12][0-9] מחרוזת זו מציינת שמספר יכול להתחיל ב-"1" או "2", ואחריו מספר מ- 0 עד 9. התוצאה יכולה להיות מספר מ-10 עד 29.
  • 3[01] מחרוזת זו מציינת שמספר יכול להתחיל ב-“3”, ואחריו “0” או “1”. התוצאה יכולה להיות 30 או 31.

לאחר שהגדרנו את היום, נעבור להגדרת הביטוי עבור השנה.

עכשיו נחפש את הפסיק והרווח: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

חילוץ השנה

בקבוצה האחרונה נחפש את השנה: (20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

נתחיל בחיפוש כל שנה, אם כי נידע שהיא גדולה או שווה ל-2000.

  • 20 מחרוזת זו מציינת שאנו מחפשים כל שנה המתחילה בדיוק ב-20.
  • \d{2} מחרוזת זו מציינת שאנו מחפשים מספר כפול, כלומר מ-"00" עד "99".

התו \d מציין לדוגמה ספרה בין 0 ל-9, בעוד \d{2} מחפש מספר כפול.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Variablen werden aus dem Dokument ausgelesen und bereitgestellt

כאשר נשתמש בביטוי רגולרי זה ב-PaperOffice, התוצאה הסופית שתתקבל תהיה התאריך „Sep 20, 2019“.

כך ניתן לחלץ כל תאריך ממסמך, מבלי לדעת את ערך המקור. קבוצות אלו יכולות לשמש בכל מקום אחר ולהיות מועברות חופשי כדי לקרוא תבניות תאריך אחרות.

כאן דוגמה נוספת:

PaperOffice Rechnung 2 mit Regex zu auslesen
Rechnungen mit verschiedenen Formaten können leicht ausgelesen werden

התאריך מתחיל ביום, אחריו החודש באותיות, כאשר האות הראשונה תמיד תיכתב באותיות גדולות, ואחריו נקודה, רווח נוסף ואז השנה.

כדי לחלץ תאריך זה, נוכל להשתמש בביטוי הרגולרי שהוסבר קודם, עם תיקון קל, כי בדוגמה השנייה נקבע נקודה לאחר החודש.

זה ניתן לציון עם המחרוזת: \.

הביטוי הסופי ייראה כך:

(0[1-9]|[12][0-9]|3[01])\s([A-Z][a-zä]{2})\.\s(20\d{2})

תוכלו בכל עת לאמת ה-Regex שיצרתם על ידי הכנסת הביטוי יחד עם הטקסט באתר https://regex101.com. Regex101 לא רק יבדוק אם ה-Regex שלך נכון, אלא גם יסביר את הביטוי הרגולרי באופן רחב.

כך תוכלו להשתמש בקבוצות התווים השונות לכל דבר.

קריאת מספר הזמנה באמצעות REGEX

כדוגמה נוספת, נרצה לקרוא את מספר ההזמנה מהמסמך.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Auftragsnummern werden aus dem Dokument extrahiert

מספר ההזמנה על המסמך שלנו מעוצב ככה:

זה תמיד מתחיל באותיות הראשיות XYB, ולאחר מכן מקף, ואז 8 ספרות, עוד מקף ובסוף 3 אותיות ראשיות אקראיות.

דוגמאות למספרי הזמנה יהיו:

XYB-12316723-LSH

XYB-98456723-JRD

כדי לחלץ את מספר ההזמנה הזה, אנו יכולים להשתמש בביטוי הרגולרי הבא:

XYB-\d{8}-[A-Z]{3}

בוא נפרק את הביטוי הזה צעד אחר צעד.

ראשית נחפש בדיוק את שלוש האותיות הראשיות הראשונות עם הסימן המקף: XYB-

XYB-\d{8}-[A-Z]{3}

לאחר מכן נחפש 8 ספרות ולאחריהן עוד מקף: \d{8}-

XYB-\d{8}-[A-Z]{3}

הסימן \d, כמו שתואר קודם, מייצג מספר בין 0 ל-9, ושוב הסימן \d{8} מחפש מספר בן שמונה ספרות.

ובסוף נחפש 3 אותיות ראשיות אקראיות: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

כך PaperOffice תזהה ממספרי ההזמנה הבאים:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

שני הראשונים XYB-12316723-LSH ו-XYB-98456723-JRD

תזהה.

הכנו קישור ל-Regex101 לדוגמה זו, שבו הביטוי הרגולרי שהזכרנו מתואר ב-4 דוגמאות. תוכלו לראות שרק שניים ממספרי הזמנה האלה עומדים בדרישות שלנו.

קריאת מספרי מוצרים באמצעות REGEX

מספר המוצר במסמך שלנו מעוצב ככה:

זה תמיד מתחיל בשתי אותיות ראשיות, ואז מקף, ולאחר מכן 6 ספרות.

PaperOffice Rechnung mit Regex zu auslesen
Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

דוגמאות למספרי מוצרים יהיו:

MS-863398

DS-452829

כדי לחלץ מספרי מוצרים אלו, נוכל להשתמש בביטוי הרגולרי הבא:

[A-Z]{2}-\d{6}

PaperOffice יכולה לסרוק את המסמכים שלכם ולהשתלב במערכות שלכם כדי לאוטומט את חילוץ הנתונים מהחשבוניות ומסמכים אחרים, מבלי לכתוב ולשמור קודים כה רבים.

צרו איתנו קשר כדי לשוחח על המקרים שלכם ולגלות איך PaperOffice יכולה לעזור לכם להיות תחרותיים יותר בעידן הדיגיטלי.

להתחיל פשוט יותר ממה שאתם חושבים.

עדיין יש לכם ספקות אם תצליחו לעשות את זה? קראו סיפורי מקרה של הלקוחות שלנו על שילוב PaperOffice בעסקים שלהם ושכנעו את עצמכם בפשטות, או בקשו התקנת ניסיון פשוטה.

FAQs

לבסוף, אנחנו עונים על מספר שאלות נוספות בשכונת "שימוש בביטויים רגולריים REGEX לצורך איסוף והפקת נתונים אוטומטיים (חלק 2)":

למי מתאים משרד ללא ניירות?

התשובה המהירה והפשוטה לשאלה היא: לכל חברה. משרד ללא ניירות מועיל לכל הענפים העסקיים ובכל הגדלים, ממפעלים קטנים ובינוניים ועד חברות גדולות. השינוי הוא בעל ערך מיוחד לעסקים קטנים ובינוניים:הפחתת מאמצי טיפול ועלויות משחררת תקציב הנדרש לצמיחה נוספת.

האם אני יכול להשתמש בספק DMS מבוסס ענן עבור המשרד ללא ניירות שלי בחברה?

לא. גורם נוסף שהפך לנושא מרכזי מאז כניסת ה-DSGVO לתוקף בשנת 2018 הוא פרטיות המידע. פתרונות DMS ותוכנת DMS משמשים לעיבוד, ניהול ואחסון של מסמכים הכוללים לעיתים קרובות נתונים אישיים רגישים. המחוקק קובע קנסות גבוהים על הפרות של ה-DSGVO.

מסקנה

  • יתרונות מצדיקים את המאמץ והעלויות

    לעבוד באופן דיגיטלי ולהביא מסמכים ישנים לעידן החדש תהיה ההשקעה המפתח הטובה ביותר שתציל לכם זמן רב, כסף ועצבים בעתיד.

  • אתם צריכים מישהו שמבין בזה

    לא צריך מומחה IT משלו כדי לנצל את כל היתרונות של הדיגיטליזציה.
    מה שאתם צריכים זה שותף נכון לצדכם, שבזכות הניסיון שלו יכול לממש בדיוק את מה שאתם צריכים. הימנעו מאיומים ובחרו ניסיונות במקום מצגות PowerPoint נוצצות בלי לבדוק אותם באמת.

  • החומרה כבר קיימת לרוב

    ניסיון מראה שכמעט לכל עסק, חברה וארגון יש מכונת צילום גדולה, שלא מנצלת את האפשרויות שלה. המכשיר הזה אוהב סריקה המונית, סובלני בהקשר של מהדקים ויכול להיות הבסיס להתחלה דיגיטלית בלי להשקיע בסורק.

  • זול מהצפוי עם DMS נכון

    הימנעו ממלכודות עלויות עם מערכות DMS / ECM שבהן אתם נתונים ליצרנים ללא רחמים. אל תתפשרו בנוגע לאפשרויות הניהול העצמי כמו למשל ללמוד מסמכים לבד ולהגדיר הגדרות. אם אתם צריכים עזרה, היצרן ישמח לעזור, אבל תהיו עצמאיים ובלתי תלויים.

  • האוטומציה הדיגיטלית היא העתיד

    תהליכים יתנהלו בעתיד באופן זהה לחלוטין, אבל באופן אוטומטי לחלוטין.
    מתקבלת חשבונית? תהליך העבודה מופעל והכול מתנהל לפי הדרך המוגדרת פעם אחת.
    לחפש בכל 1000 תיקי המסמכים? אין בעיה, כי יש לכם את ה-Google הפרטי שלכם!

PaperOffice פותרת כל בעיה: מובטח.

מחקר מקרה

שינוי דיגיטלי בפיתוח מוצרים - ניהול מסמכים מוצלח

"בתעשייה, נושא הדיגיטציה הופך להיות יותר ויותר בולט. זה חל, למשל, על גיליונות הנתונים הטכניים שלנו, נתוני הלקוחות, החישובים או התוכניות, השרטוטים והתצורות שלנו. לאחר הצגת PaperOffice DMS, ניתן היה להפחית את המאמץ הידני. כיום אנו חלוצים בדיגיטציה בחברות הפקה, תעשייה 4.0".

מר אנטוניו חסוס סאנצ'ז
מנכ"ל ומהנדס מוצר ותהליכים ב-Butterfly Engineers S.L.