Post-elaborazione

Il post-processing perfeziona l'output OCR dopo che il testo è stato riconosciuto. Questo passaggio aiuta a correggere errori OCR comuni, rimuovere caratteri indesiderati e formattare correttamente il testo prima della traduzione.

Nota: Il post-processing è utile per tutti i tipi di motori OCR. Anche i motori OCR moderni e basati su IA possono produrre testo che necessita di formattazione o correzione.

Quando usare il post-processing

Usa il post-processing quando:

  • L'OCR riconosce costantemente caratteri sbagliati ("l" come "|", "0" come "O")

  • Devi rimuovere caratteri o simboli specifici

  • La formattazione del testo necessita di aggiustamenti. (a capo, virgolette)

  • Vuoi standardizzare schemi di caratteri

  • L'output OCR contiene caratteri indesiderati

Espressioni regolari (RegExp)

Le espressioni regolari (RegExp) sono modelli usati per cercare e manipolare il testo. VNTranslator supporta due tipi di operazioni RegExp:

1. Corrispondenza RegExp

Identifica ed estrae modelli di testo specifici dall'output OCR. Verrà mantenuto solo il testo che corrisponde al modello.

Casi d'uso:

  • Estrai solo caratteri giapponesi e ignora altri simboli

  • Mantieni solo i caratteri di una lingua specifica

  • Rimuovi tutto tranne il testo principale del dialogo

Esempio:

Questo modello corrisponde ed estrae solo i caratteri giapponesi (kanji, hiragana, katakana e simboli giapponesi).

Per maggiori dettagli, vedi Corrispondenza RegExp.

2. Sostituzione RegExp (Cerca & Sostituisci)

Cerca modelli di testo specifici e li sostituisce con altro testo. Questa è la tecnica di post-processing più comunemente usata.

Casi d'uso:

  • Correggi errori comuni di riconoscimento OCR

  • Sostituisci virgolette errate con quelle corrette

  • Rimuovi caratteri o simboli indesiderati

  • Normalizza la formattazione del testo

  • Correggi interruzioni di riga e problemi di spaziatura

Esempi comuni:

Sostituisci le virgolette:

Rimuovi simboli musicali:

Correggi i puntini di sospensione:

Rimuovi interruzioni di riga:

Correggi errori OCR comuni:

Per maggiori dettagli, vedi Sostituzione RegExp.