Posprocesamiento
El posprocesamiento refina la salida del OCR después de que el texto ha sido reconocido. Este paso ayuda a corregir errores comunes del OCR, eliminar caracteres no deseados y formatear el texto correctamente antes de la traducción.
Nota: El posprocesamiento es útil para todos los tipos de motores OCR. Incluso los motores OCR modernos y basados en IA pueden producir texto que necesita formato o corrección.
Cuándo usar el posprocesamiento
Use el posprocesamiento cuando:
El OCR reconoce caracteres incorrectos de forma consistente ("l" como "|", "0" como "O")
Necesita eliminar caracteres o símbolos específicos
El formato del texto necesita ajuste. (saltos de línea, comillas)
Desea estandarizar patrones de caracteres
La salida del OCR contiene caracteres no deseados
Expresión regular (RegExp)
Las expresiones regulares (RegExp) son patrones usados para buscar y manipular texto. VNTranslator admite dos tipos de operaciones RegExp:
1. Coincidencia RegExp
Identifica y extrae patrones de texto específicos de la salida del OCR. Solo se conservará el texto que coincida con el patrón.
Casos de uso:
Extraer solo caracteres japoneses e ignorar otros símbolos
Conservar solo caracteres de un idioma específico
Eliminar todo excepto el texto principal del diálogo
Ejemplo:
Este patrón coincide y extrae solo caracteres japoneses (kanji, hiragana, katakana y símbolos japoneses).
Para más detalles, ver Coincidencia de RegExp.
2. Reemplazo RegExp (Buscar y reemplazar)
Busca patrones de texto específicos y los reemplaza por otro texto. Esta es la técnica de posprocesamiento más utilizada.
Casos de uso:
Corregir errores comunes de reconocimiento del OCR
Reemplazar comillas incorrectas por las correctas
Eliminar caracteres o símbolos no deseados
Normalizar el formato del texto
Corregir saltos de línea y problemas de espaciado
Ejemplos comunes:
Reemplazar comillas:
Eliminar símbolos musicales:
Corregir elipsis:
Eliminar saltos de línea:
Corregir errores comunes del OCR:
Para más detalles, ver Reemplazo de RegExp.