Son İşleme
Metin tanındıktan sonra OCR çıktısını düzeltmek için son işlem uygulanır. Bu adım, yaygın OCR hatalarını düzeltmeye, istenmeyen karakterleri kaldırmaya ve çeviri öncesi metni düzgün biçimlendirmeye yardımcı olur.
Not: Son işlem şunlar için yararlıdır tüm OCR motoru türleri. Modern ve yapay zekâ tabanlı OCR motorları bile biçimlendirme veya düzeltme gerektiren metin üretebilir.
Ne Zaman Son İşlem Kullanılmalı
Aşağıdaki durumlarda son işlem kullanın:
OCR tutarlı şekilde yanlış karakterler tanıyor ("l" yerine "|", "0" yerine "O")
Belirli karakterleri veya sembolleri kaldırmanız gerekiyor
Metin biçimlendirmesinin ayarlanması gerekiyor. (satır sonları, tırnak işaretleri)
Karakter kalıplarını standartlaştırmak istiyorsunuz
OCR çıktısında istenmeyen karakterler var
Düzenli İfade (RegExp)
Düzenli İfadeler (RegExp), metni aramak ve üzerinde işlem yapmak için kullanılan kalıplardır. VNTranslator iki tür RegExp işlemini destekler:
1. RegExp Eşleştirme
OCR çıktısından belirli metin kalıplarını tanımlar ve çıkarır. Yalnızca kalıpla eşleşen metin korunur.
Kullanım durumları:
Diğer sembolleri görmezden gelerek yalnızca Japonca karakterleri çıkar
Yalnızca belirli dil karakterlerini koru
Ana diyalog metni dışındaki her şeyi kaldır
Örnek:
Bu kalıp yalnızca Japonca karakterleri (Kanji, Hiragana, Katakana ve Japonca semboller) eşleştirir ve çıkarır.
Daha fazla ayrıntı için bkz. RegExp Eşleştirme.
2. RegExp Değiştirme (Ara & Değiştir)
Belirli metin kalıplarını arar ve bunları başka metinlerle değiştirir. Bu en yaygın kullanılan son işlem tekniğidir.
Kullanım durumları:
Yaygın OCR tanıma hatalarını düzelt
Yanlış tırnak işaretlerini doğru olanlarla değiştir
İstenmeyen karakterleri veya sembolleri kaldır
Metin biçimlendirmesini normalleştir
Satır sonları ve boşluk sorunlarını düzelt
Yaygın Örnekler:
Tırnak işaretlerini değiştir:
Müzik sembollerini kaldır:
Üç noktayı düzelt:
Satır sonlarını kaldır:
Yaygın OCR hatalarını düzelt:
Daha fazla ayrıntı için bkz. RegExp Yerine Koyma.