Nachbearbeitung
Die Nachbearbeitung verfeinert die OCR-Ausgabe, nachdem der Text erkannt wurde. Dieser Schritt hilft, häufige OCR-Fehler zu korrigieren, unerwünschte Zeichen zu entfernen und den Text vor der Übersetzung richtig zu formatieren.
Hinweis: Nachbearbeitung ist nützlich für alle Arten von OCR-Engines. Selbst moderne und KI-basierte OCR-Engines können Text erzeugen, der Formatierung oder Korrektur benötigt.
Wann die Nachbearbeitung verwenden
Verwenden Sie Nachbearbeitung, wenn:
OCR konsequent falsche Zeichen erkennt ("l" als "|", "0" als "O")
Sie bestimmte Zeichen oder Symbole entfernen müssen
Die Textformatierung angepasst werden muss. (Zeilenumbrüche, Anführungszeichen)
Sie Zeichenmuster standardisieren möchten
Die OCR-Ausgabe unerwünschte Zeichen enthält
Regulärer Ausdruck (RegExp)
Reguläre Ausdrücke (RegExp) sind Muster, die zum Suchen und Manipulieren von Text verwendet werden. VNTranslator unterstützt zwei Arten von RegExp-Operationen:
1. RegExp-Matching
Identifiziert und extrahiert bestimmte Textmuster aus der OCR-Ausgabe. Nur Text, der dem Muster entspricht, wird beibehalten.
Anwendungsfälle:
Nur japanische Zeichen extrahieren und andere Symbole ignorieren
Nur bestimmte Sprachzeichen beibehalten
Alles entfernen außer dem Hauptdialogtext
Beispiel:
Dieses Muster passt und extrahiert nur japanische Zeichen (Kanji, Hiragana, Katakana und japanische Symbole).
Für weitere Details siehe RegExp-Abgleich.
2. RegExp-Ersetzung (Suchen & Ersetzen)
Sucht nach bestimmten Textmustern und ersetzt sie durch anderen Text. Dies ist die am häufigsten verwendete Nachbearbeitungstechnik.
Anwendungsfälle:
Häufige OCR-Erkennungsfehler beheben
Falsche Anführungszeichen durch korrekte ersetzen
Unerwünschte Zeichen oder Symbole entfernen
Textformatierung normalisieren
Zeilenumbrüche und Abstandsprobleme beheben
Häufige Beispiele:
Anführungszeichen ersetzen:
Musiksymbole entfernen:
Ellipse korrigieren:
Zeilenumbrüche entfernen:
Häufige OCR-Fehler beheben:
Für weitere Details siehe RegExp-Ersetzung.