Mengurutkan dan mengganti nama dokumen PDF yang dipindai secara otomatis

By Nishanth Asokan | Otomatisasi

Mengurutkan dan mengganti nama dokumen PDF yang dipindai secara otomatis

Klasifikasi dokumen merupakan tantangan besar selama beberapa dekade di hampir semua industri, dan memiliki kebutuhan yang sangat penting dalam berbagai proses bisnis. Secara tradisional, proses ini dilakukan secara manual, seperti pengguna membaca dokumen dan mengidentifikasi subjek untuk mengklasifikasikan dokumen. Meskipun proses manual membantu mengkategorikan lebih tepat, sebagian besar memakan waktu dan sangat mahal.

Digitalisasi proses bisnis telah mengurangi upaya manual yang signifikan dari waktu ke waktu yang telah menghasilkan pertumbuhan ekonomi yang lebih cepat. Ada banyak alat dan layanan otomatisasi pekerjaan dokumen yang sudah tersedia di pasaran yang dapat memudahkan proses bisnis menjadi lebih cepat dan mudah terukur. Sebagai bagian dari ini, mengatur volume besar dokumen yang masuk ke dalam proses bisnis Anda harus lebih cepat. Proses pengurutan dan pengorganisasian dapat dilakukan secara otomatis dengan fitur pendukung menggunakan fitur PDF4me Workflow.

Untuk pemahaman Anda yang lebih baik, kami telah mengambil kasus penggunaan khusus

  • Temukan Nomor Faktur dari dokumen menggunakan ekspresi reguler dan ganti nama file dengan nomor faktur, dan jelaskan langkah demi langkah secara rinci.

3 Langkah Mudah untuk menyortir dokumen Anda, mengganti namanya, dan menyimpannya ke penyimpanan yang tersortir dengan baik.

Langkah 1: Lakukan OCR hanya jika diperlukan

Kenali teks dari dokumen yang dipindai dengan OCR

Ini akan menjadi langkah pertama dari tindakan alur kerja Anda dari PDF4me. Tindakan PDF OCR adalah fitur yang kuat, yang dapat mendeteksi apakah dokumen masukan Anda adalah dokumen pindaian atau dokumen berbasis teks, dan menerapkan OCR hanya bila diperlukan. Biasanya, OCR sedikit lebih mahal daripada fitur lain karena melibatkan sumber daya khusus yang dikemas dengan mesin OCR yang kuat dan komponen terkait.

Dalam alur kerja otomatisasi, mungkin ada situasi di mana Anda mungkin memerlukan OCR terkadang saat dokumen berupa gambar pindaian. Anda tidak perlu membayar yang tidak perlu ketika Anda tidak benar-benar perlu menerapkan OCR ketika dokumen Anda tidak memiliki gambar yang dipindai. Cukup aktifkan opsi “Lakukan OCR Saat Diperlukan” sambil menambahkan tindakan OCR di alur kerja Anda. Tindakan ini menghasilkan file PDF berbasis teks setelah konversi atau mengembalikan file yang sama saat tidak memerlukan konversi.

Langkah 2: Ekstrak teks dari setiap halaman dokumen PDF Anda

Ekstrak teks setelah dikenali dengan OCR

Tindakan alur kerja Ekstrak Teks akan membawa semua konten halaman Anda ke konteks data tindakan berikutnya. Ini berarti Anda dapat bermain dengan konten Anda sesuka Anda - seperti mengurai teks tertentu, memeriksa apakah teks yang Anda inginkan ditemukan, menggabungkan teks yang telah diurai dengan teks khusus Anda, dan banyak lagi dengan ekspresi JavaScript. Dalam contoh ini, akan mencoba mencari nomor faktur dari tanda terima pembayaran online.

Contoh faktur PDF:

Contoh faktur

Dari file PDF ini kami ingin mengurai nomor faktur dan menggunakan nomor ini kami akan mengganti nama file dan menyimpannya di penyimpanan cloud My Docs PDF4me akhirnya.

Konteks data keluaran dari tindakan ini akan berisi teks dalam format di bawah ini.

${file.pages[0].PageText}

[0] - ini menunjukkan nomor halaman mulai dari nol, ini dapat diatur ke nomor apa pun untuk mendapatkan teks halaman dari rentang halaman mana pun dari dokumen PDF Anda.

Tambahkan ekspresi reguler untuk menemukan kecocokan dari konteks data PageText seperti di bawah ini.

${file.pages[0].PageText.match(/Faktur\s*?[#-]\s*[0-9]*/g)}

Ini adalah fungsi JavaScript sederhana untuk menerapkan ekspresi reguler bersama dengan hasil konteks data Anda. Regex ini mencoba mencari nomor invoice beserta label Invoice.

Seperti ini, Anda dapat menggunakan fungsi JavaScript untuk menerapkan fungsi logis apa pun untuk mengidentifikasi dokumen Anda dan membuat keputusan untuk mengklasifikasikannya secara lebih akurat dan tanpa upaya manual.

Langkah 3: Ganti nama dan simpan ke Penyimpanan Dokumen Saya

Save To MyDoc adalah tindakan PDF4me, yang memungkinkan Anda menyimpan dokumen Anda di penyimpanan PDF4me. Jika Anda ingin menyimpan ini di Dropbox, FTP, atau Google Drive Anda juga dimungkinkan. Untuk tujuan demonstrasi, kami menggunakan penyimpanan My Docs untuk saat ini. Semua tindakan simpan ke memiliki Nama File Keluaran, yang merupakan bidang tidak wajib.

Simpan file dengan nama khusus ke My Docs

Anda dapat menyetel nama file kustom Anda dengan kombinasi dinamis apa pun seperti ${INV}-{UTCNOW()}.pdf - Ini akan menghasilkan dokumen yang diawali dengan INV- dan diakhiri dengan waktu UTC saat ini secara dinamis. Anda mendapatkan kendali atas apa yang harus disimpan dan di mana menyimpan dokumen keluaran Anda. Dalam kasus penggunaan demonstrasi kami, kami perlu menempatkan konteks data bersama dengan ekspresi reguler untuk menghasilkan nama file baru seperti di bawah ini.

${file.pages[0].PageText.match(/Faktur\s*?[#-]\s*[0-9]*/g)}.pdf

Contoh Alur Kerja untuk menyortir dan mengganti nama dokumen yang dipindai

Setelah menjalankan semua langkah pohon ini, dokumen Anda akan diklasifikasikan, diganti namanya, dan disimpan dengan lokasi penyimpanan file yang Anda inginkan. Seberapa mudah ini untuk Anda sekarang? Ya, PDF4me selalu berpikir dari sudut pandang pengguna akhir dan membuat hidup mereka begitu mudah di dunia pemrosesan dokumen.

Related Blog Posts