Post-processing
Post-processing ulepsza wynik OCR po rozpoznaniu tekstu. Ten krok pomaga poprawić typowe błędy OCR, usunąć niechciane znaki i odpowiednio sformatować tekst przed tłumaczeniem.
Uwaga: Post-processing jest przydatny dla wszystkich typów silników OCR. Nawet nowoczesne i oparte na AI silniki OCR mogą generować tekst, który wymaga formatowania lub korekty.
Kiedy stosować post-processing
Stosuj post-processing, gdy:
OCR konsekwentnie rozpoznaje błędne znaki ("l" jako "|", "0" jako "O")
Potrzebujesz usunąć konkretne znaki lub symbole
Formatowanie tekstu wymaga poprawy. (złamania linii, cudzysłowy)
Chcesz ujednolicić wzorce znaków
Wynik OCR zawiera niechciane znaki
Wyrażenie regularne (RegExp)
Wyrażenia regularne (RegExp) to wzorce używane do wyszukiwania i manipulowania tekstem. VNTranslator obsługuje dwa typy operacji RegExp:
1. Dopasowanie RegExp
Identyfikuje i wyodrębnia określone wzorce tekstu z wyniku OCR. Tylko tekst pasujący do wzorca zostanie zachowany.
Zastosowania:
Wyodrębnij tylko japońskie znaki i zignoruj inne symbole
Zachowaj tylko znaki konkretnego języka
Usuń wszystko poza głównym tekstem dialogu
Przykład:
Ten wzorzec dopasowuje i wyodrębnia tylko japońskie znaki (kanji, hiragana, katakana i japońskie symbole).
Dla dalszych szczegółów zobacz Dopasowywanie RegExp.
2. Zastępowanie RegExp (Szukaj i zamień)
Wyszukuje określone wzorce tekstu i zastępuje je innym tekstem. To najczęściej używana technika post-processingu.
Zastosowania:
Poprawiaj typowe błędy rozpoznawania OCR
Zamień błędne cudzysłowy na poprawne
Usuń niechciane znaki lub symbole
Normalizuj formatowanie tekstu
Napraw złamania linii i problemy z odstępami
Typowe przykłady:
Zastąp cudzysłowy:
Usuń symbole muzyczne:
Napraw wielokropki:
Usuń złamania linii:
Napraw typowe błędy OCR:
Dla dalszych szczegółów zobacz Zamiana RegExp.