Son İşleme

Metin tanındıktan sonra OCR çıktısını düzeltmek için son işlem uygulanır. Bu adım, yaygın OCR hatalarını düzeltmeye, istenmeyen karakterleri kaldırmaya ve çeviri öncesi metni düzgün biçimlendirmeye yardımcı olur.

Not: Son işlem şunlar için yararlıdır tüm OCR motoru türleri. Modern ve yapay zekâ tabanlı OCR motorları bile biçimlendirme veya düzeltme gerektiren metin üretebilir.

Ne Zaman Son İşlem Kullanılmalı

Aşağıdaki durumlarda son işlem kullanın:

  • OCR tutarlı şekilde yanlış karakterler tanıyor ("l" yerine "|", "0" yerine "O")

  • Belirli karakterleri veya sembolleri kaldırmanız gerekiyor

  • Metin biçimlendirmesinin ayarlanması gerekiyor. (satır sonları, tırnak işaretleri)

  • Karakter kalıplarını standartlaştırmak istiyorsunuz

  • OCR çıktısında istenmeyen karakterler var

Düzenli İfade (RegExp)

Düzenli İfadeler (RegExp), metni aramak ve üzerinde işlem yapmak için kullanılan kalıplardır. VNTranslator iki tür RegExp işlemini destekler:

1. RegExp Eşleştirme

OCR çıktısından belirli metin kalıplarını tanımlar ve çıkarır. Yalnızca kalıpla eşleşen metin korunur.

Kullanım durumları:

  • Diğer sembolleri görmezden gelerek yalnızca Japonca karakterleri çıkar

  • Yalnızca belirli dil karakterlerini koru

  • Ana diyalog metni dışındaki her şeyi kaldır

Örnek:

Bu kalıp yalnızca Japonca karakterleri (Kanji, Hiragana, Katakana ve Japonca semboller) eşleştirir ve çıkarır.

Daha fazla ayrıntı için bkz. RegExp Eşleştirme.

2. RegExp Değiştirme (Ara & Değiştir)

Belirli metin kalıplarını arar ve bunları başka metinlerle değiştirir. Bu en yaygın kullanılan son işlem tekniğidir.

Kullanım durumları:

  • Yaygın OCR tanıma hatalarını düzelt

  • Yanlış tırnak işaretlerini doğru olanlarla değiştir

  • İstenmeyen karakterleri veya sembolleri kaldır

  • Metin biçimlendirmesini normalleştir

  • Satır sonları ve boşluk sorunlarını düzelt

Yaygın Örnekler:

Tırnak işaretlerini değiştir:

Müzik sembollerini kaldır:

Üç noktayı düzelt:

Satır sonlarını kaldır:

Yaygın OCR hatalarını düzelt:

Daha fazla ayrıntı için bkz. RegExp Yerine Koyma.