Pós-processamento

O pós-processamento refina a saída do OCR depois que o texto foi reconhecido. Esta etapa ajuda a corrigir erros comuns do OCR, remover caracteres indesejados e formatar o texto corretamente antes da tradução.

Observação: O pós-processamento é útil para todos os tipos de motor de OCR. Mesmo motores de OCR modernos e baseados em IA podem produzir texto que precisa de formatação ou correção.

Quando usar o pós-processamento

Use o pós-processamento quando:

  • O OCR reconhece caracteres errados de forma consistente ("l" como "|", "0" como "O")

  • Você precisa remover caracteres ou símbolos específicos

  • A formatação do texto precisa de ajuste. (quebras de linha, aspas)

  • Você quer padronizar padrões de caracteres

  • A saída do OCR contém caracteres indesejados

Expressão Regular (RegExp)

Expressões regulares (RegExp) são padrões usados para procurar e manipular texto. O VNTranslator suporta dois tipos de operações com RegExp:

1. Correspondência RegExp

Identifica e extrai padrões de texto específicos da saída do OCR. Apenas o texto que corresponder ao padrão será mantido.

Casos de uso:

  • Extrair apenas caracteres japoneses e ignorar outros símbolos

  • Manter apenas caracteres de um idioma específico

  • Remover tudo exceto o texto principal do diálogo

Exemplo:

Este padrão corresponde e extrai apenas caracteres japoneses (Kanji, Hiragana, Katakana e símbolos japoneses).

Para mais detalhes, veja Correspondência RegExp.

2. Substituição RegExp (Pesquisar & Substituir)

Procura padrões de texto específicos e os substitui por outro texto. Esta é a técnica de pós-processamento mais comumente usada.

Casos de uso:

  • Corrigir erros comuns de reconhecimento do OCR

  • Substituir aspas erradas por aspas corretas

  • Remover caracteres ou símbolos indesejados

  • Normalizar a formatação do texto

  • Corrigir quebras de linha e problemas de espaçamento

Exemplos comuns:

Substituir aspas:

Remover símbolos musicais:

Corrigir reticências:

Remover quebras de linha:

Corrigir erros comuns do OCR:

Para mais detalhes, veja Substituição RegExp.