Post-processing

Post-processing ulepsza wynik OCR po rozpoznaniu tekstu. Ten krok pomaga poprawić typowe błędy OCR, usunąć niechciane znaki i odpowiednio sformatować tekst przed tłumaczeniem.

Uwaga: Post-processing jest przydatny dla wszystkich typów silników OCR. Nawet nowoczesne i oparte na AI silniki OCR mogą generować tekst, który wymaga formatowania lub korekty.

Kiedy stosować post-processing

Stosuj post-processing, gdy:

  • OCR konsekwentnie rozpoznaje błędne znaki ("l" jako "|", "0" jako "O")

  • Potrzebujesz usunąć konkretne znaki lub symbole

  • Formatowanie tekstu wymaga poprawy. (złamania linii, cudzysłowy)

  • Chcesz ujednolicić wzorce znaków

  • Wynik OCR zawiera niechciane znaki

Wyrażenie regularne (RegExp)

Wyrażenia regularne (RegExp) to wzorce używane do wyszukiwania i manipulowania tekstem. VNTranslator obsługuje dwa typy operacji RegExp:

1. Dopasowanie RegExp

Identyfikuje i wyodrębnia określone wzorce tekstu z wyniku OCR. Tylko tekst pasujący do wzorca zostanie zachowany.

Zastosowania:

  • Wyodrębnij tylko japońskie znaki i zignoruj inne symbole

  • Zachowaj tylko znaki konkretnego języka

  • Usuń wszystko poza głównym tekstem dialogu

Przykład:

Ten wzorzec dopasowuje i wyodrębnia tylko japońskie znaki (kanji, hiragana, katakana i japońskie symbole).

Dla dalszych szczegółów zobacz Dopasowywanie RegExp.

2. Zastępowanie RegExp (Szukaj i zamień)

Wyszukuje określone wzorce tekstu i zastępuje je innym tekstem. To najczęściej używana technika post-processingu.

Zastosowania:

  • Poprawiaj typowe błędy rozpoznawania OCR

  • Zamień błędne cudzysłowy na poprawne

  • Usuń niechciane znaki lub symbole

  • Normalizuj formatowanie tekstu

  • Napraw złamania linii i problemy z odstępami

Typowe przykłady:

Zastąp cudzysłowy:

Usuń symbole muzyczne:

Napraw wielokropki:

Usuń złamania linii:

Napraw typowe błędy OCR:

Dla dalszych szczegółów zobacz Zamiana RegExp.