Newsletter PaperOffice Insider
Newsletter PaperOffice Insider
Kami ingin menjadi teman

Penawaran diskon terbesar yang mungkin

Berita eksklusif dari dalam sumber resmi.

Peningkatan bonus gratis

Penawaran diskon terbesar yang mungkin

Berita eksklusif dari dalam sumber resmi.

Peningkatan bonus gratis

Persahabatan Kepercayaan Kata Hormat
Kami tidak akan memberikan alamat email Anda kepada orang lain dan setiap email akan mencakup tautan berhenti berlangganan dengan satu klik.

Melakukan pemrosesan dokumen yang pintar dengan benar


Tips profesional

Pengumpulan data otomatis dengan ekspresi reguler: Bagaimana memproses jumlah data besar dengan efisien menggunakan ekspresi reguler.


Kunci untuk pengumpulan data otomatis dan ekstraksi data.

Dalam artikel ini, kami akan menunjukkan kepada Anda bagaimana Anda dapat menggunakan ekspresi reguler untuk mengoptimalkan proses pengolahan dokumen otomatis. Ini berlaku terutama untuk dokumen perusahaan dari berbagai bidang.

Kami akan memberikan contoh konkret dari ekspresi reguler dan menjelaskan langkah-langkahnya, sehingga Anda dapat memahaminya dan menggunakannya.

Anda dapat meningkatkan efisiensi operasional Anda, mengurangi kesalahan manusia dengan peningkatan akurasi, mengurangi biaya saat ini, mempertahankan integritas data, dan meningkatkan keamanan data.

Artikel ini melanjutkan bagian pertama tentang pengolahan dokumen cerdas, klik di sini untuk membaca artikelnya.

Mengekstrak elemen data tertentu dari dokumen dapat menjadi tugas yang sangat mahal dan memakan waktu. Seringkali, hasil pemindaian dokumen dikirim ke perusahaan pemrosesan data outsourcing besar, di mana data dimasukkan secara manual.

Namun, pendekatan ini memiliki beberapa kekurangan, antara lain:

  • Keamanan dokumen dapat terancam
  • Proses aliran kerja melambat
  • Indeks manual adalah proses yang lambat dibandingkan dengan ekstraksi otomatis
  • Indeks manual tidak dapat diskalakan dengan baik dalam proyek-proyek besar
  • Indeks manual dapat memperkenalkan kesalahan dalam data
  • Jika dokumen berubah, proses keseluruhan harus diulang

Dan banyak lagi.

Meskipun semakin banyak dokumen digital yang ada, sebagian besar transaksi bisnis masih didasarkan pada dokumen berbasis kertas. Diperkirakan 85% faktur masih dicetak di atas kertas.

Selain itu, ada tumpukan kertas yang perlu disimpan di gudang!

Apa itu ekspresi reguler?

Ekspresi reguler, juga dikenal sebagai "Regex", adalah alat yang kuat untuk mencari dan memanipulasi teks. Ini memungkinkan untuk mengenali dan memanipulasi pola yang kompleks dalam teks.

Ekspresi reguler terdiri dari kombinasi huruf biasa dan karakter meta khusus yang memiliki fungsi tertentu.

Ekspresi reguler juga dapat digunakan untuk mengganti atau memanipulasi teks. Misalnya, ekspresi reguler dapat digunakan.

Ini adalah alat yang sangat kuat untuk memproses teks dan mengotomatisasi tugas-tugas.

Bagaimana ekspresi reguler dapat membantu mengotomatisasi bisnis?

Penambahan dokumen digital dengan berbagai jenis, aturan penamaan yang berbeda, dan kurangnya sistem pencarian yang memadai membuat proses pencarian dan pengambilan informasi dokumen menjadi sulit, terutama jika dokumen tidak diklasifikasikan dengan baik, pencarian menjadi tidak akurat dan memakan waktu.

Ekspresi reguler (Regex) adalah cara yang cepat dan kuat untuk mencari, mengambil, dan mengganti data tertentu dalam dokumen. Ekspresi reguler pada dasarnya adalah rangkaian karakter teks khusus yang menggambarkan pola pencarian.

Jadi konten dokumen dicari dan dibaca setelah mencocokkan dengan rangkaian karakter yang ditentukan.Ekspresi reguler adalah cara untuk mendefinisikan pola dalam informasi dengan menggunakan simbol-simbol tertentu.

Metode Regex paling cocok untuk dokumen yang nilainya bervariasi dalam posisi pengekstraksian dan template dokumen sederhana tidak dapat digunakan.

Daftar contoh ekspresi sederhana dapat ditemukan di ComDesk kami.

PaperOffice Regex Beispielsammlung
Aus der PaperOffice Regex Beispielsammlung können umfangreiche Ausdrücke verwendet werden

Bagaimana cara membangun ekspresi reguler?

Ekspresi reguler dapat dirangkai dengan berbagai cara, tergantung pada jenis pola yang ingin dicari.

Menggunakan karakter meta seperti ., *, +, ?, ^, $, [] dan [a-z] untuk mewakili jenis karakter atau pola tertentu.

Menggunakan bagian opsional: Gunakan tanda tanya (?) atau tanda asterisk (*) untuk membuat bagian dari pola menjadi opsional.

Menggunakan grup: Gunakan tanda kurung untuk mengelompokkan bagian dari pola dan memperlakukannya sebagai sebuah unit.

Perlu diingat bahwa aturan ekspresi reguler dapat bervariasi tergantung pada bahasa pemrograman yang digunakan. Oleh karena itu, penting untuk membaca dokumentasi alat yang digunakan. RegEx yang ditulis untuk PaperOffice harus kompatibel dengan ECMAScript dan PCRE2.

Tip

Tentang "PENGARSIPAN DOKUMEN OLAHAN / REGEX & Variablen / Mengautomatisasi Pengolahan Tagihan", ada juga video di YouTube yang menjelaskan proses ini dengan mudah dan jelas:

Bagaimana saya mengekstrak informasi dari dokumen saya dengan REGEX?

Contoh Praktis

Pada artikel ini, kami akan menunjukkan kepada Anda bagaimana Anda dapat mengekstrak data dari dokumen Anda secara otomatis menggunakan ekspresi reguler multikomponen dalam PaperOffice. Data ini kemudian dapat digunakan untuk indeksasi dokumen.

Di bawah ini kami telah membuat sebuah dokumen contoh yang memiliki tanggal tertentu. Dokumen ini adalah sebuah faktur. Pola tanggal pada dokumen kami diformat seperti ini:

PaperOffice Rechnung mit Regex zu auslesen
Informationen automatisiert aus Rechnungen extrahieren

Bulan, terdiri dari huruf-huruf, dengan huruf pertama selalu huruf kapital, diikuti oleh spasi, kemudian tanggal diikuti oleh koma, spasi lagi, dan tahun.

Contohnya: Sep 20, 2019 atau Mär 05, 2022


Untuk mengekstrak tanggal ini, kita dapat menggunakan ekspresi reguler (REGEX) berikut:

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Mari kita jelaskan setiap grup dalam ekspresi ini. Grup-grup ini dipisahkan oleh tanda kurung ().

Pada grup pertama, kita mencari 3 huruf bulan: ([A-Z][a-zä]{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Mengekstrak nama bulan

  • [A-Z] Rentang karakter ini berarti kita mencari satu huruf kapital dari A-Z. Misalnya huruf "S" dari "Sep". Perlu diingat bahwa huruf besar dan kecil dibedakan.
  • [a-zä]{2} Rentang karakter ini berarti kita mencari dua huruf kecil dari a-z dan juga huruf "ä" (untuk nama bulan dalam bahasa Jerman "März"). Misalnya "ep" dari "Sep" atau "är" dari "Mär".

Lalu kita mencari spasi menggunakan karakter berikut: \s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Mengekstrak angka tanggal

Pada grup kedua, kita mencari desimal yang mewakili tanggal: (0[1-9]|[12][0-9]|3[01])

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Penandaan angka tanggal harus dibagi menjadi tiga instruksi yang berbeda.
Karena kita tidak tahu angka tanggal apa yang akan ada dalam dokumen, bisa berupa tanggal pertama (01) atau tanggal terakhir (31) dalam bulan tersebut, maka berbagai opsi harus ditentukan.
Ini dipisahkan oleh karakter "|".
Contoh: (1|2|3) = 1 atau 2 atau 3.

Di dalam tanda kurung siku adalah daftar karakter yang diizinkan. Penulisan beberapa tanda kurung siku sesuai dengan beberapa karakter.Jika suatu ekspresi harus menggambarkan beberapa karakter, cukup jelaskan karakter-karakter tersebut secara berurutan. Kemudian inputan dibandingkan dari kiri ke kanan dengan ekspresi Anda.

Tentu saja, tidak selalu perlu mencantumkan semua angka. Secara keseluruhan, ekspresi yang diapit dalam tanda kurung hanya merupakan satu karakter.

  • 0[1-9] Rentang karakter ini berarti angka dapat dimulai dengan "0", diikuti oleh rentang angka dari 1 hingga 9. Jadi kita bisa mendapatkan angka antara 01-09.
  • Rentang karakter ini mencari angka yang dimulai dengan "0". Jika dokumen Anda biasanya tidak memiliki angka "0" sebelum angka "5" di dalam tanggal (misalnya "5 Maret 2022"), maka "0" pada rentang karakter ini dapat dihilangkan.

  • [12][0-9] Rentang karakter ini berarti angka dapat dimulai dengan "1" atau "2", diikuti oleh rentang angka dari 0 hingga 9. Hasilnya bisa semua angka dari 10 hingga 29.
  • 3[01] Rentang karakter ini berarti angka dapat dimulai dengan "3", diikuti oleh "0" atau "1". Hasilnya bisa 30 atau 31.

Setelah daftar opsi untuk tanggal ditetapkan, ekspresi untuk tahun harus ditentukan.

Sekarang kita mencari tanda koma dan spasi: ,\s

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Mengekstrak angka tahun

Pada grup terakhir, kita mencari tahun: (20\d{2})

([A-Z][a-zä]{2})\s(0[1-9]|[12][0-9]|3[01]),\s(20\d{2})

Dimulai dengan mencari angka tahun apa pun, tetapi kita tahu bahwa angka tahun pasti ≥ 2000.

  • 20 Rentang karakter ini berarti kita sedang mencari tahun apa pun yang dimulai dengan tepat 20.
  • \d{2} Rentang karakter ini berarti kita sedang mencari kemungkinan angka dua digit, yaitu dari "00" hingga "99".

Karakter \d, misalnya, berarti angka antara 0 dan 9, sedangkan \d{2} berarti mencari angka dua digit.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Variablen werden aus dem Dokument ausgelesen und bereitgestellt

Ketika ekspresi reguler ini diterapkan dalam PaperOffice, tanggal "Sep 20, 2019" menjadi hasilnya.

Dengan cara ini, setiap tanggal dalam dokumen dapat diekstrak tanpa harus mengetahui nilai aslinya sebelumnya. Gr

Extracting order numbers using REGEX

As another example, we want to extract the order number from the document.

Variablen werden aus dem Dokument ausgelesen und bereitgestellt
Auftragsnummern werden aus dem Dokument extrahiert

The order number on our document is formatted as follows:

It always starts with the capital letters XYB, followed by a hyphen, followed by 8 digits, another hyphen, and finally 3 random capital letters.

Examples of order numbers could be:

XYB-12316723-LSH

XYB-98456723-JRD

To extract this order number, we can use the following regular expression:

XYB-\d{8}-[A-Z]{3}

Let's break down the expression step by step.

First, we search for exactly the first 3 capital letters followed by a hyphen: XYB-

XYB-\d{8}-[A-Z]{3}

Then, we search for 8 digits followed by another hyphen: \d{8}-

XYB-\d{8}-[A-Z]{3}

The character \d, as described before, represents a digit from 0 to 9. And \d{8} searches for an 8-digit number.

And finally, we search for 3 random capital letters: [A-Z]{3}

XYB-\d{8}-[A-Z]{3}

With this regular expression, PaperOffice would recognize the first two order numbers from the following examples:

XYB-12316723-LSH

XYB-98456723-JRD

XYB-975432671829

ZYB-12342176-ZHD

which are XYB-12316723-LSH and XYB-98456723-JRD

We have prepared a link to Regex101 with 4 examples listed using the regular expression described above. You can see that only two of the given order numbers meet our requirements.

Extracting item numbers using REGEX

The item number on our document is formatted as follows:

It always starts with two capital letters, followed by a hyphen, and then 6 digits.

PaperOffice Rechnung mit Regex zu auslesen
Verschiedene Artikelnummern können aus Rechnungen ausgelesen werden

Examples of item numbers could be:

MS-863398

DS-452829

To extract these item numbers, we can use the following regular expression:

[A-Z]{2}-\d{6}

PaperOffice can digitize your documents and integrate them into your systems to automate data extraction from invoices and other documents without having to write and maintain countless lines of code.

Contact us to discuss your use cases and learn more about how PaperOffice can help you stay competitive in the digital age.

Getting started is easier than you think.

Still have doubts that you can do it? Read case studies from our customers about how PaperOffice integrates into their business life and see for yourself the simplicity or simply request a test installation.

FAQs

Akhirnya, kami menjawab beberapa pertanyaan yang sering diajukan lebih lanjut tentang topik tersebut "Menggunakan Regular Expressions REGEX untuk Pencatatan dan Ekstraksi Data Otomatis (Bagian 2)":

Untuk siapa kantor tanpa kertas cocok?

Jawabannya singkat dan mudah: untuk setiap perusahaan. Semua industri dan ukuran perusahaan, dari UKM hingga startup hingga perusahaan besar, akan mendapat manfaat dari kantor tanpa kertas. Namun, perubahan ini paling berharga bagi perusahaan kecil dan menengah: Dengan mengurangi waktu dan biaya pengolahan, anggaran yang diperlukan dapat digunakan untuk memacu pertumbuhan.

Apakah saya dapat menggunakan penyedia DMS berbasis Cloud untuk kantor tanpa kertas di perusahaan saya?

Tidak. Salah satu faktor lain yang telah menjadi sorotan terutama setelah diberlakukannya Peraturan Umum Perlindungan Data (GDPR) pada tahun 2018 adalah perlindungan data. Solusi DMS dan perangkat lunak DMS digunakan untuk memproses, mengelola, dan menyimpan dokumen yang sering mengandung data pribadi yang sensitif. Pelanggaran GDPR bisa dikenakan denda yang tinggi oleh pemerintah.

Kesimpulan

  • Manfaat Membenarkan Biaya dan Upaya

    Bekerja secara digital dan membawa dokumen lama ke era baru akan menjadi investasi kunci terbaik untuk menghemat waktu, uang, dan ketegangan di masa depan yang luar biasa.

  • Anda memerlukan seseorang yang memahami hal itu

    Anda tidak memerlukan spesialis IT sendiri untuk memanfaatkan semua manfaat digitalisasi.
    Apa yang Anda butuhkan adalah mitra yang tepat di sisi Anda, yang dapat mengimplementasikan persis apa yang Anda butuhkan melalui pengalamannya. Hindari penakut dan pilih pengujian daripada presentasi PowerPoint yang bagus tanpa benar-benar mencobanya.

  • Perangkat keras biasanya sudah ada

    Sebagaimana diketahui, hampir setiap perusahaan, firma, dan perusahaan memiliki mesin fotokopi besar yang tidak memanfaatkan kemampuannya. Perangkat ini menyukai pemindaian massal, toleran terhadap klip kantor, dan dapat menjadi landasan awal digitalisasi tanpa investasi pemindai.

  • Lebih murah dari yang diharapkan dengan DMS yang tepat

    Hindari jebakan biaya dengan sistem DMS / ECM di mana Anda sepenuhnya bergantung pada produsen. Jangan ada kompromi dalam hal kemampuan administrasi sendiri seperti mempelajari dokumen sendiri dan membuat pengaturan. Jika Anda membutuhkan bantuan, produsen akan dengan senang hati membantu Anda, tetapi tetaplah mandiri dan independen.

  • Mengotomatisasi secara digital adalah masa depan

    Proses di masa depan berjalan sepenuhnya sama, tetapi sepenuhnya otomatis.
    Tagihan masuk? Alur kerja akan diaktifkan dan semuanya akan berjalan sesuai dengan jalur yang telah ditentukan sebelumnya.
    Perlu mencari dalam 1000 folder berkas? Tidak masalah, karena Anda memiliki Google Anda sendiri!

PaperOffice memecahkan setiap masalah: Dijamin.

Studi Kasus

Digitalisasi dalam industri teknologi gigi - manajemen dokumen yang sukses untuk industri gigi

"Mendapatkan hasil kronologis super cepat untuk laporan keuangan tahunan dan persediaan untuk menentukan harga pembelian termurah untuk setiap item individu. Apa yang dulu memakan waktu berhari-hari sekarang bisa dilakukan dalam hitungan jam!"

Lars R. Ludewig
pemilik dan direktur pelaksana ViaCreative Zahntechnik GmbH