Paska-pemrosesan

Pemrosesan pasca-olah memperbaiki keluaran OCR setelah teks dikenali. Langkah ini membantu mengoreksi kesalahan OCR umum, menghapus karakter yang tidak diinginkan, dan memformat teks dengan benar sebelum diterjemahkan.

Catatan: Pemrosesan pasca-olah berguna untuk semua jenis mesin OCR. Bahkan mesin OCR modern dan berbasis AI mungkin menghasilkan teks yang perlu diformat atau diperbaiki.

Kapan Menggunakan Pemrosesan Pasca-olah

Gunakan pemrosesan pasca-olah ketika:

OCR secara konsisten mengenali karakter yang salah ("l" sebagai "|", "0" sebagai "O")
Anda perlu menghapus karakter atau simbol tertentu
Pemformatan teks perlu penyesuaian. (pemisah baris, tanda kutip)
Anda ingin menstandarisasi pola karakter
Keluaran OCR berisi karakter yang tidak diinginkan

Regular Expression (RegExp)

Regular Expressions (RegExp) adalah pola yang digunakan untuk mencari dan memanipulasi teks. VNTranslator mendukung dua jenis operasi RegExp:

1. Pencocokan RegExp

Mengidentifikasi dan mengekstrak pola teks tertentu dari keluaran OCR. Hanya teks yang cocok dengan pola yang akan dipertahankan.

Contoh penggunaan:

Ekstrak hanya karakter Jepang dan abaikan simbol lain
Pertahankan hanya karakter bahasa tertentu
Hapus semuanya kecuali teks dialog utama

Contoh:

Pola ini mencocokkan dan mengekstrak hanya karakter Jepang (Kanji, Hiragana, Katakana, dan simbol Jepang).

["[一-龠]+|[ぁ-ゔ]+|[ァ-ヴー]+|[々〆〤]+|[⺀-⿕]+|[、-〿]+|[ㇰ-ㇿ㈠-㉃㊀-㍿]+", "gmu"]

Untuk detail lebih lanjut, lihat Pencocokan RegExp.

2. Penggantian RegExp (Cari & Ganti)

Mencari pola teks tertentu dan menggantinya dengan teks lain. Ini adalah teknik pemrosesan pasca-olah yang paling umum digunakan.

Contoh penggunaan:

Memperbaiki kesalahan pengenalan OCR yang umum
Ganti tanda kutip yang salah dengan yang benar
Hapus karakter atau simbol yang tidak diinginkan
Normalisasi pemformatan teks
Perbaiki pemisah baris dan masalah spasi

Contoh Umum:

Ganti tanda kutip:

["『", "g", "「"]
["』", "g", "」"]

Hapus simbol musik:

["♪", "g", ""]

Perbaiki elipsis:

["。。。", "g", "..."]

Hapus pemisah baris:

["(\r\n|\n|\r)", "gm", " "]

Perbaiki kesalahan OCR yang umum:

["\\|", "g", "I"]

Untuk detail lebih lanjut, lihat Penggantian RegExp.

PreviousPrapemrosesan NextMemahami OCR dan Meningkatkan Akurasi

hashtagKapan Menggunakan Pemrosesan Pasca-olah

hashtagRegular Expression (RegExp)

hashtag1. Pencocokan RegExp

hashtag2. Penggantian RegExp (Cari & Ganti)

Kapan Menggunakan Pemrosesan Pasca-olah

Regular Expression (RegExp)

1. Pencocokan RegExp

2. Penggantian RegExp (Cari & Ganti)