Posprocesamiento

El posprocesamiento refina la salida del OCR después de que el texto ha sido reconocido. Este paso ayuda a corregir errores comunes del OCR, eliminar caracteres no deseados y formatear el texto correctamente antes de la traducción.

Nota: El posprocesamiento es útil para todos los tipos de motores OCR. Incluso los motores OCR modernos y basados en IA pueden producir texto que necesita formato o corrección.

Cuándo usar el posprocesamiento

Use el posprocesamiento cuando:

  • El OCR reconoce caracteres incorrectos de forma consistente ("l" como "|", "0" como "O")

  • Necesita eliminar caracteres o símbolos específicos

  • El formato del texto necesita ajuste. (saltos de línea, comillas)

  • Desea estandarizar patrones de caracteres

  • La salida del OCR contiene caracteres no deseados

Expresión regular (RegExp)

Las expresiones regulares (RegExp) son patrones usados para buscar y manipular texto. VNTranslator admite dos tipos de operaciones RegExp:

1. Coincidencia RegExp

Identifica y extrae patrones de texto específicos de la salida del OCR. Solo se conservará el texto que coincida con el patrón.

Casos de uso:

  • Extraer solo caracteres japoneses e ignorar otros símbolos

  • Conservar solo caracteres de un idioma específico

  • Eliminar todo excepto el texto principal del diálogo

Ejemplo:

Este patrón coincide y extrae solo caracteres japoneses (kanji, hiragana, katakana y símbolos japoneses).

Para más detalles, ver Coincidencia de RegExp.

2. Reemplazo RegExp (Buscar y reemplazar)

Busca patrones de texto específicos y los reemplaza por otro texto. Esta es la técnica de posprocesamiento más utilizada.

Casos de uso:

  • Corregir errores comunes de reconocimiento del OCR

  • Reemplazar comillas incorrectas por las correctas

  • Eliminar caracteres o símbolos no deseados

  • Normalizar el formato del texto

  • Corregir saltos de línea y problemas de espaciado

Ejemplos comunes:

Reemplazar comillas:

Eliminar símbolos musicales:

Corregir elipsis:

Eliminar saltos de línea:

Corregir errores comunes del OCR:

Para más detalles, ver Reemplazo de RegExp.