Nachbearbeitung

Die Nachbearbeitung verfeinert die OCR-Ausgabe, nachdem der Text erkannt wurde. Dieser Schritt hilft, häufige OCR-Fehler zu korrigieren, unerwünschte Zeichen zu entfernen und den Text vor der Übersetzung richtig zu formatieren.

Hinweis: Nachbearbeitung ist nützlich für alle Arten von OCR-Engines. Selbst moderne und KI-basierte OCR-Engines können Text erzeugen, der Formatierung oder Korrektur benötigt.

Wann die Nachbearbeitung verwenden

Verwenden Sie Nachbearbeitung, wenn:

  • OCR konsequent falsche Zeichen erkennt ("l" als "|", "0" als "O")

  • Sie bestimmte Zeichen oder Symbole entfernen müssen

  • Die Textformatierung angepasst werden muss. (Zeilenumbrüche, Anführungszeichen)

  • Sie Zeichenmuster standardisieren möchten

  • Die OCR-Ausgabe unerwünschte Zeichen enthält

Regulärer Ausdruck (RegExp)

Reguläre Ausdrücke (RegExp) sind Muster, die zum Suchen und Manipulieren von Text verwendet werden. VNTranslator unterstützt zwei Arten von RegExp-Operationen:

1. RegExp-Matching

Identifiziert und extrahiert bestimmte Textmuster aus der OCR-Ausgabe. Nur Text, der dem Muster entspricht, wird beibehalten.

Anwendungsfälle:

  • Nur japanische Zeichen extrahieren und andere Symbole ignorieren

  • Nur bestimmte Sprachzeichen beibehalten

  • Alles entfernen außer dem Hauptdialogtext

Beispiel:

Dieses Muster passt und extrahiert nur japanische Zeichen (Kanji, Hiragana, Katakana und japanische Symbole).

Für weitere Details siehe RegExp-Abgleich.

2. RegExp-Ersetzung (Suchen & Ersetzen)

Sucht nach bestimmten Textmustern und ersetzt sie durch anderen Text. Dies ist die am häufigsten verwendete Nachbearbeitungstechnik.

Anwendungsfälle:

  • Häufige OCR-Erkennungsfehler beheben

  • Falsche Anführungszeichen durch korrekte ersetzen

  • Unerwünschte Zeichen oder Symbole entfernen

  • Textformatierung normalisieren

  • Zeilenumbrüche und Abstandsprobleme beheben

Häufige Beispiele:

Anführungszeichen ersetzen:

Musiksymbole entfernen:

Ellipse korrigieren:

Zeilenumbrüche entfernen:

Häufige OCR-Fehler beheben:

Für weitere Details siehe RegExp-Ersetzung.