Post-elaborazione
Il post-processing perfeziona l'output OCR dopo che il testo è stato riconosciuto. Questo passaggio aiuta a correggere errori OCR comuni, rimuovere caratteri indesiderati e formattare correttamente il testo prima della traduzione.
Nota: Il post-processing è utile per tutti i tipi di motori OCR. Anche i motori OCR moderni e basati su IA possono produrre testo che necessita di formattazione o correzione.
Quando usare il post-processing
Usa il post-processing quando:
L'OCR riconosce costantemente caratteri sbagliati ("l" come "|", "0" come "O")
Devi rimuovere caratteri o simboli specifici
La formattazione del testo necessita di aggiustamenti. (a capo, virgolette)
Vuoi standardizzare schemi di caratteri
L'output OCR contiene caratteri indesiderati
Espressioni regolari (RegExp)
Le espressioni regolari (RegExp) sono modelli usati per cercare e manipolare il testo. VNTranslator supporta due tipi di operazioni RegExp:
1. Corrispondenza RegExp
Identifica ed estrae modelli di testo specifici dall'output OCR. Verrà mantenuto solo il testo che corrisponde al modello.
Casi d'uso:
Estrai solo caratteri giapponesi e ignora altri simboli
Mantieni solo i caratteri di una lingua specifica
Rimuovi tutto tranne il testo principale del dialogo
Esempio:
Questo modello corrisponde ed estrae solo i caratteri giapponesi (kanji, hiragana, katakana e simboli giapponesi).
Per maggiori dettagli, vedi Corrispondenza RegExp.
2. Sostituzione RegExp (Cerca & Sostituisci)
Cerca modelli di testo specifici e li sostituisce con altro testo. Questa è la tecnica di post-processing più comunemente usata.
Casi d'uso:
Correggi errori comuni di riconoscimento OCR
Sostituisci virgolette errate con quelle corrette
Rimuovi caratteri o simboli indesiderati
Normalizza la formattazione del testo
Correggi interruzioni di riga e problemi di spaziatura
Esempi comuni:
Sostituisci le virgolette:
Rimuovi simboli musicali:
Correggi i puntini di sospensione:
Rimuovi interruzioni di riga:
Correggi errori OCR comuni:
Per maggiori dettagli, vedi Sostituzione RegExp.