Menggunakan Regular Expressions REGEX untuk Pencatatan dan Ekstraksi Data Otomatis (Bagian 2)
Penawaran diskon terbesar yang mungkin
Berita eksklusif dari dalam sumber resmi.
Peningkatan bonus gratis
Penawaran diskon terbesar yang mungkin
Berita eksklusif dari dalam sumber resmi.
Peningkatan bonus gratis
Persahabatan Kepercayaan Kata Hormat
Kami tidak akan memberikan alamat email Anda kepada orang lain dan setiap email akan mencakup tautan berhenti berlangganan dengan satu klik.
Dalam artikel ini, kami akan menunjukkan kepada Anda bagaimana Anda dapat menggunakan ekspresi reguler untuk mengoptimalkan proses pengolahan dokumen otomatis. Ini berlaku terutama untuk dokumen perusahaan dari berbagai bidang.
Kami akan memberikan contoh konkret dari ekspresi reguler dan menjelaskan langkah-langkahnya, sehingga Anda dapat memahaminya dan menggunakannya.
Anda dapat meningkatkan efisiensi operasional Anda, mengurangi kesalahan manusia dengan peningkatan akurasi, mengurangi biaya saat ini, mempertahankan integritas data, dan meningkatkan keamanan data.
Artikel ini melanjutkan bagian pertama tentang pengolahan dokumen cerdas, klik di sini untuk membaca artikelnya.
Mengekstrak elemen data tertentu dari dokumen dapat menjadi tugas yang sangat mahal dan memakan waktu. Seringkali, hasil pemindaian dokumen dikirim ke perusahaan pemrosesan data outsourcing besar, di mana data dimasukkan secara manual.
Namun, pendekatan ini memiliki beberapa kekurangan, antara lain:
Dan banyak lagi.
Meskipun semakin banyak dokumen digital yang ada, sebagian besar transaksi bisnis masih didasarkan pada dokumen berbasis kertas. Diperkirakan 85% faktur masih dicetak di atas kertas.
Selain itu, ada tumpukan kertas yang perlu disimpan di gudang!
Ekspresi reguler, juga dikenal sebagai "Regex", adalah alat yang kuat untuk mencari dan memanipulasi teks. Ini memungkinkan untuk mengenali dan memanipulasi pola yang kompleks dalam teks.
Ekspresi reguler terdiri dari kombinasi huruf biasa dan karakter meta khusus yang memiliki fungsi tertentu.
Ekspresi reguler juga dapat digunakan untuk mengganti atau memanipulasi teks. Misalnya, ekspresi reguler dapat digunakan.
Ini adalah alat yang sangat kuat untuk memproses teks dan mengotomatisasi tugas-tugas.
Penambahan dokumen digital dengan berbagai jenis, aturan penamaan yang berbeda, dan kurangnya sistem pencarian yang memadai membuat proses pencarian dan pengambilan informasi dokumen menjadi sulit, terutama jika dokumen tidak diklasifikasikan dengan baik, pencarian menjadi tidak akurat dan memakan waktu.
Jadi konten dokumen dicari dan dibaca setelah mencocokkan dengan rangkaian karakter yang ditentukan.Ekspresi reguler adalah cara untuk mendefinisikan pola dalam informasi dengan menggunakan simbol-simbol tertentu.
Metode Regex paling cocok untuk dokumen yang nilainya bervariasi dalam posisi pengekstraksian dan template dokumen sederhana tidak dapat digunakan.
Daftar contoh ekspresi sederhana dapat ditemukan di ComDesk kami.
Ekspresi reguler dapat dirangkai dengan berbagai cara, tergantung pada jenis pola yang ingin dicari.
Menggunakan karakter meta seperti ., *, +, ?, ^, $, [] dan [a-z] untuk mewakili jenis karakter atau pola tertentu.
Menggunakan bagian opsional: Gunakan tanda tanya (?) atau tanda asterisk (*) untuk membuat bagian dari pola menjadi opsional.
Menggunakan grup: Gunakan tanda kurung untuk mengelompokkan bagian dari pola dan memperlakukannya sebagai sebuah unit.
Perlu diingat bahwa aturan ekspresi reguler dapat bervariasi tergantung pada bahasa pemrograman yang digunakan. Oleh karena itu, penting untuk membaca dokumentasi alat yang digunakan. RegEx yang ditulis untuk PaperOffice harus kompatibel dengan ECMAScript dan PCRE2.
Tip
Tentang "PENGARSIPAN DOKUMEN OLAHAN / REGEX & Variablen / Mengautomatisasi Pengolahan Tagihan", ada juga video di YouTube yang menjelaskan proses ini dengan mudah dan jelas:
Pada artikel ini, kami akan menunjukkan kepada Anda bagaimana Anda dapat mengekstrak data dari dokumen Anda secara otomatis menggunakan ekspresi reguler multikomponen dalam PaperOffice. Data ini kemudian dapat digunakan untuk indeksasi dokumen.
Di bawah ini kami telah membuat sebuah dokumen contoh yang memiliki tanggal tertentu. Dokumen ini adalah sebuah faktur. Pola tanggal pada dokumen kami diformat seperti ini:
Bulan, terdiri dari huruf-huruf, dengan huruf pertama selalu huruf kapital, diikuti oleh spasi, kemudian tanggal diikuti oleh koma, spasi lagi, dan tahun.
Contohnya: Sep 20, 2019 atau Mär 05, 2022
Untuk mengekstrak tanggal ini, kita dapat menggunakan ekspresi reguler (REGEX) berikut:
Mari kita jelaskan setiap grup dalam ekspresi ini. Grup-grup ini dipisahkan oleh tanda kurung ().
Pada grup pertama, kita mencari 3 huruf bulan: ([A-Z][a-zä]{2})
Lalu kita mencari spasi menggunakan karakter berikut: \s
Pada grup kedua, kita mencari desimal yang mewakili tanggal: (0[1-9]|[12][0-9]|3[01])
Penandaan angka tanggal harus dibagi menjadi tiga instruksi yang berbeda.
Karena kita tidak tahu angka tanggal apa yang akan ada dalam dokumen, bisa berupa tanggal pertama (01) atau tanggal terakhir (31) dalam bulan tersebut, maka berbagai opsi harus ditentukan.
Ini dipisahkan oleh karakter "|".
Contoh: (1|2|3) = 1 atau 2 atau 3.
Di dalam tanda kurung siku adalah daftar karakter yang diizinkan. Penulisan beberapa tanda kurung siku sesuai dengan beberapa karakter.Jika suatu ekspresi harus menggambarkan beberapa karakter, cukup jelaskan karakter-karakter tersebut secara berurutan. Kemudian inputan dibandingkan dari kiri ke kanan dengan ekspresi Anda.
Tentu saja, tidak selalu perlu mencantumkan semua angka. Secara keseluruhan, ekspresi yang diapit dalam tanda kurung hanya merupakan satu karakter.
Rentang karakter ini mencari angka yang dimulai dengan "0". Jika dokumen Anda biasanya tidak memiliki angka "0" sebelum angka "5" di dalam tanggal (misalnya "5 Maret 2022"), maka "0" pada rentang karakter ini dapat dihilangkan.
Setelah daftar opsi untuk tanggal ditetapkan, ekspresi untuk tahun harus ditentukan.
Sekarang kita mencari tanda koma dan spasi: ,\s
Pada grup terakhir, kita mencari tahun: (20\d{2})
Dimulai dengan mencari angka tahun apa pun, tetapi kita tahu bahwa angka tahun pasti ≥ 2000.
Karakter \d, misalnya, berarti angka antara 0 dan 9, sedangkan \d{2} berarti mencari angka dua digit.
Ketika ekspresi reguler ini diterapkan dalam PaperOffice, tanggal "Sep 20, 2019" menjadi hasilnya.
Dengan cara ini, setiap tanggal dalam dokumen dapat diekstrak tanpa harus mengetahui nilai aslinya sebelumnya. Gr
As another example, we want to extract the order number from the document.
The order number on our document is formatted as follows:
It always starts with the capital letters XYB, followed by a hyphen, followed by 8 digits, another hyphen, and finally 3 random capital letters.
Examples of order numbers could be:
XYB-12316723-LSH
XYB-98456723-JRD
To extract this order number, we can use the following regular expression:
Let's break down the expression step by step.
First, we search for exactly the first 3 capital letters followed by a hyphen: XYB-
Then, we search for 8 digits followed by another hyphen: \d{8}-
The character \d, as described before, represents a digit from 0 to 9. And \d{8} searches for an 8-digit number.
And finally, we search for 3 random capital letters: [A-Z]{3}
With this regular expression, PaperOffice would recognize the first two order numbers from the following examples:
XYB-12316723-LSH
XYB-98456723-JRD
XYB-975432671829
ZYB-12342176-ZHD
which are XYB-12316723-LSH and XYB-98456723-JRD
We have prepared a link to Regex101 with 4 examples listed using the regular expression described above. You can see that only two of the given order numbers meet our requirements.
The item number on our document is formatted as follows:
It always starts with two capital letters, followed by a hyphen, and then 6 digits.
Examples of item numbers could be:
MS-863398
DS-452829
To extract these item numbers, we can use the following regular expression:
PaperOffice can digitize your documents and integrate them into your systems to automate data extraction from invoices and other documents without having to write and maintain countless lines of code.
Contact us to discuss your use cases and learn more about how PaperOffice can help you stay competitive in the digital age.
Getting started is easier than you think.
Still have doubts that you can do it? Read case studies from our customers about how PaperOffice integrates into their business life and see for yourself the simplicity or simply request a test installation.
ERROR: LID-5759 missing
ERROR: LID-6036 missing
ERROR: LID-6035 missing
ERROR: LID-5763 missing
ERROR: LID-6039 missing
ERROR: LID-6035 missing
ERROR: LID-5756 missing
ERROR: LID-6042 missing
ERROR: LID-5803 missing
ERROR: LID-5793 missing
ERROR: LID-6069 missing
ERROR: LID-6070 missing
ERROR: LID-5787 missing
ERROR: LID-6072 missing
ERROR: LID-6035 missing
ERROR: LID-5789 missing
ERROR: LID-6077 missing
ERROR: LID-6070 missing
ERROR: LID-6074 missing
ERROR: LID-5771 missing
ERROR: LID-6075 missing
ERROR: LID-6035 missing
ERROR: LID-5777 missing
ERROR: LID-5759 missing
ERROR: LID-5763 missing
ERROR: LID-5800 missing
ERROR: LID-5769 missing
ERROR: LID-6082 missing
ERROR: LID-6083 missing