後処理
ポストプロセッシングは、テキストが認識された後にOCR出力を整える処理です。このステップは、一般的なOCRの誤りを修正し、不要な文字を削除し、翻訳前にテキストを適切に整形するのに役立ちます。
注意: ポストプロセッシングが有用なのは すべてのOCRエンジンタイプです。最新のAIベースのOCRエンジンであっても、整形や修正が必要なテキストを生成することがあります。
ポストプロセッシングを使うべきとき
次の場合にポストプロセッシングを使用してください:
OCRが一貫して誤った文字を認識する場合(「l」を「|」と認識する、「0」を「O」と認識するなど)
特定の文字や記号を削除する必要がある場合
テキストの書式を調整する必要がある場合(改行、引用符など)
文字パターンを標準化したい場合
OCR出力に不要な文字が含まれている場合
正規表現(RegExp)
正規表現(RegExp)は、テキストを検索・操作するためのパターンです。VNTranslatorは2種類のRegExp操作をサポートしています:
1. RegExpマッチング
OCR出力から特定のテキストパターンを識別して抽出します。パターンに一致するテキストのみが保持されます。
利用例:
日本語文字のみを抽出し、他の記号を無視する
特定の言語の文字だけを保持する
主要な会話文以外をすべて削除する
例:
このパターンは日本語文字(漢字、ひらがな、カタカナ、および日本語の記号)のみをマッチングして抽出します。
詳細については、を参照してください RegExpマッチング.
2. RegExp置換(検索&置換)
特定のテキストパターンを検索し、それらを別のテキストに置換します。これは最も一般的に使われるポストプロセッシング手法です。
利用例:
一般的なOCR認識エラーを修正する
誤った引用符を正しいものに置換する
不要な文字や記号を削除する
テキストの書式を正規化する
改行やスペースの問題を修正する
よくある例:
引用符を置換する:
音楽記号を削除する:
省略記号を修正する:
改行を削除する:
一般的なOCRエラーを修正する:
詳細については、を参照してください 正規表現置換.