Paska-pemrosesan

Pemrosesan pasca-olah memperbaiki keluaran OCR setelah teks dikenali. Langkah ini membantu mengoreksi kesalahan OCR umum, menghapus karakter yang tidak diinginkan, dan memformat teks dengan benar sebelum diterjemahkan.

Catatan: Pemrosesan pasca-olah berguna untuk semua jenis mesin OCR. Bahkan mesin OCR modern dan berbasis AI mungkin menghasilkan teks yang perlu diformat atau diperbaiki.

Kapan Menggunakan Pemrosesan Pasca-olah

Gunakan pemrosesan pasca-olah ketika:

  • OCR secara konsisten mengenali karakter yang salah ("l" sebagai "|", "0" sebagai "O")

  • Anda perlu menghapus karakter atau simbol tertentu

  • Pemformatan teks perlu penyesuaian. (pemisah baris, tanda kutip)

  • Anda ingin menstandarisasi pola karakter

  • Keluaran OCR berisi karakter yang tidak diinginkan

Regular Expression (RegExp)

Regular Expressions (RegExp) adalah pola yang digunakan untuk mencari dan memanipulasi teks. VNTranslator mendukung dua jenis operasi RegExp:

1. Pencocokan RegExp

Mengidentifikasi dan mengekstrak pola teks tertentu dari keluaran OCR. Hanya teks yang cocok dengan pola yang akan dipertahankan.

Contoh penggunaan:

  • Ekstrak hanya karakter Jepang dan abaikan simbol lain

  • Pertahankan hanya karakter bahasa tertentu

  • Hapus semuanya kecuali teks dialog utama

Contoh:

Pola ini mencocokkan dan mengekstrak hanya karakter Jepang (Kanji, Hiragana, Katakana, dan simbol Jepang).

Untuk detail lebih lanjut, lihat Pencocokan RegExp.

2. Penggantian RegExp (Cari & Ganti)

Mencari pola teks tertentu dan menggantinya dengan teks lain. Ini adalah teknik pemrosesan pasca-olah yang paling umum digunakan.

Contoh penggunaan:

  • Memperbaiki kesalahan pengenalan OCR yang umum

  • Ganti tanda kutip yang salah dengan yang benar

  • Hapus karakter atau simbol yang tidak diinginkan

  • Normalisasi pemformatan teks

  • Perbaiki pemisah baris dan masalah spasi

Contoh Umum:

Ganti tanda kutip:

Hapus simbol musik:

Perbaiki elipsis:

Hapus pemisah baris:

Perbaiki kesalahan OCR yang umum:

Untuk detail lebih lanjut, lihat Penggantian RegExp.