Post-traitement
Le post-traitement affine la sortie OCR après que le texte a été reconnu. Cette étape aide à corriger les erreurs OCR courantes, supprimer les caractères indésirables et formater correctement le texte avant la traduction.
Remarque : Le post-traitement est utile pour tous les types de moteurs OCR. Même les moteurs OCR modernes et basés sur l'IA peuvent produire du texte nécessitant un formatage ou une correction.
Quand utiliser le post-traitement
Utilisez le post-traitement lorsque :
L'OCR reconnaît systématiquement des caractères incorrects ("l" comme "|", "0" comme "O")
Vous devez supprimer des caractères ou symboles spécifiques
Le formatage du texte nécessite un ajustement. (sauts de ligne, guillemets)
Vous souhaitez standardiser des motifs de caractères
La sortie OCR contient des caractères indésirables
Expression régulière (RegExp)
Les expressions régulières (RegExp) sont des motifs utilisés pour rechercher et manipuler du texte. VNTranslator prend en charge deux types d'opérations RegExp :
1. Correspondance RegExp
Identifie et extrait des motifs de texte spécifiques à partir de la sortie OCR. Seul le texte correspondant au motif sera conservé.
Cas d'utilisation :
Extraire uniquement les caractères japonais et ignorer les autres symboles
Conserver uniquement les caractères d'une langue spécifique
Supprimer tout sauf le texte principal du dialogue
Exemple :
Ce motif correspond et extrait uniquement les caractères japonais (kanji, hiragana, katakana et symboles japonais).
Pour plus de détails, voir Correspondance RegExp.
2. Remplacement RegExp (Rechercher & Remplacer)
Recherche des motifs de texte spécifiques et les remplace par un autre texte. Il s'agit de la technique de post-traitement la plus couramment utilisée.
Cas d'utilisation :
Corriger les erreurs courantes de reconnaissance OCR
Remplacer les guillemets incorrects par les bons
Supprimer les caractères ou symboles indésirables
Normaliser le formatage du texte
Corriger les sauts de ligne et les problèmes d'espacement
Exemples courants :
Remplacer les guillemets :
Supprimer les symboles de musique :
Corriger les points de suspension :
Supprimer les sauts de ligne :
Corriger les erreurs OCR courantes :
Pour plus de détails, voir Remplacement RegExp.