Pós-processamento
O pós-processamento refina a saída do OCR depois que o texto foi reconhecido. Esta etapa ajuda a corrigir erros comuns do OCR, remover caracteres indesejados e formatar o texto corretamente antes da tradução.
Observação: O pós-processamento é útil para todos os tipos de motor de OCR. Mesmo motores de OCR modernos e baseados em IA podem produzir texto que precisa de formatação ou correção.
Quando usar o pós-processamento
Use o pós-processamento quando:
O OCR reconhece caracteres errados de forma consistente ("l" como "|", "0" como "O")
Você precisa remover caracteres ou símbolos específicos
A formatação do texto precisa de ajuste. (quebras de linha, aspas)
Você quer padronizar padrões de caracteres
A saída do OCR contém caracteres indesejados
Expressão Regular (RegExp)
Expressões regulares (RegExp) são padrões usados para procurar e manipular texto. O VNTranslator suporta dois tipos de operações com RegExp:
1. Correspondência RegExp
Identifica e extrai padrões de texto específicos da saída do OCR. Apenas o texto que corresponder ao padrão será mantido.
Casos de uso:
Extrair apenas caracteres japoneses e ignorar outros símbolos
Manter apenas caracteres de um idioma específico
Remover tudo exceto o texto principal do diálogo
Exemplo:
Este padrão corresponde e extrai apenas caracteres japoneses (Kanji, Hiragana, Katakana e símbolos japoneses).
Para mais detalhes, veja Correspondência RegExp.
2. Substituição RegExp (Pesquisar & Substituir)
Procura padrões de texto específicos e os substitui por outro texto. Esta é a técnica de pós-processamento mais comumente usada.
Casos de uso:
Corrigir erros comuns de reconhecimento do OCR
Substituir aspas erradas por aspas corretas
Remover caracteres ou símbolos indesejados
Normalizar a formatação do texto
Corrigir quebras de linha e problemas de espaçamento
Exemplos comuns:
Substituir aspas:
Remover símbolos musicais:
Corrigir reticências:
Remover quebras de linha:
Corrigir erros comuns do OCR:
Para mais detalhes, veja Substituição RegExp.