Paska-pemrosesan
Pemrosesan pasca-olah memperbaiki keluaran OCR setelah teks dikenali. Langkah ini membantu mengoreksi kesalahan OCR umum, menghapus karakter yang tidak diinginkan, dan memformat teks dengan benar sebelum diterjemahkan.
Catatan: Pemrosesan pasca-olah berguna untuk semua jenis mesin OCR. Bahkan mesin OCR modern dan berbasis AI mungkin menghasilkan teks yang perlu diformat atau diperbaiki.
Kapan Menggunakan Pemrosesan Pasca-olah
Gunakan pemrosesan pasca-olah ketika:
OCR secara konsisten mengenali karakter yang salah ("l" sebagai "|", "0" sebagai "O")
Anda perlu menghapus karakter atau simbol tertentu
Pemformatan teks perlu penyesuaian. (pemisah baris, tanda kutip)
Anda ingin menstandarisasi pola karakter
Keluaran OCR berisi karakter yang tidak diinginkan
Regular Expression (RegExp)
Regular Expressions (RegExp) adalah pola yang digunakan untuk mencari dan memanipulasi teks. VNTranslator mendukung dua jenis operasi RegExp:
1. Pencocokan RegExp
Mengidentifikasi dan mengekstrak pola teks tertentu dari keluaran OCR. Hanya teks yang cocok dengan pola yang akan dipertahankan.
Contoh penggunaan:
Ekstrak hanya karakter Jepang dan abaikan simbol lain
Pertahankan hanya karakter bahasa tertentu
Hapus semuanya kecuali teks dialog utama
Contoh:
Pola ini mencocokkan dan mengekstrak hanya karakter Jepang (Kanji, Hiragana, Katakana, dan simbol Jepang).
Untuk detail lebih lanjut, lihat Pencocokan RegExp.
2. Penggantian RegExp (Cari & Ganti)
Mencari pola teks tertentu dan menggantinya dengan teks lain. Ini adalah teknik pemrosesan pasca-olah yang paling umum digunakan.
Contoh penggunaan:
Memperbaiki kesalahan pengenalan OCR yang umum
Ganti tanda kutip yang salah dengan yang benar
Hapus karakter atau simbol yang tidak diinginkan
Normalisasi pemformatan teks
Perbaiki pemisah baris dan masalah spasi
Contoh Umum:
Ganti tanda kutip:
Hapus simbol musik:
Perbaiki elipsis:
Hapus pemisah baris:
Perbaiki kesalahan OCR yang umum:
Untuk detail lebih lanjut, lihat Penggantian RegExp.