後処理

ポストプロセッシングは、テキストが認識された後にOCR出力を整える処理です。このステップは、一般的なOCRの誤りを修正し、不要な文字を削除し、翻訳前にテキストを適切に整形するのに役立ちます。

注意: ポストプロセッシングが有用なのは すべてのOCRエンジンタイプです。最新のAIベースのOCRエンジンであっても、整形や修正が必要なテキストを生成することがあります。

ポストプロセッシングを使うべきとき

次の場合にポストプロセッシングを使用してください:

  • OCRが一貫して誤った文字を認識する場合(「l」を「|」と認識する、「0」を「O」と認識するなど)

  • 特定の文字や記号を削除する必要がある場合

  • テキストの書式を調整する必要がある場合(改行、引用符など)

  • 文字パターンを標準化したい場合

  • OCR出力に不要な文字が含まれている場合

正規表現(RegExp)

正規表現(RegExp)は、テキストを検索・操作するためのパターンです。VNTranslatorは2種類のRegExp操作をサポートしています:

1. RegExpマッチング

OCR出力から特定のテキストパターンを識別して抽出します。パターンに一致するテキストのみが保持されます。

利用例:

  • 日本語文字のみを抽出し、他の記号を無視する

  • 特定の言語の文字だけを保持する

  • 主要な会話文以外をすべて削除する

例:

このパターンは日本語文字(漢字、ひらがな、カタカナ、および日本語の記号)のみをマッチングして抽出します。

詳細については、を参照してください RegExpマッチング.

2. RegExp置換(検索&置換)

特定のテキストパターンを検索し、それらを別のテキストに置換します。これは最も一般的に使われるポストプロセッシング手法です。

利用例:

  • 一般的なOCR認識エラーを修正する

  • 誤った引用符を正しいものに置換する

  • 不要な文字や記号を削除する

  • テキストの書式を正規化する

  • 改行やスペースの問題を修正する

よくある例:

引用符を置換する:

音楽記号を削除する:

省略記号を修正する:

改行を削除する:

一般的なOCRエラーを修正する:

詳細については、を参照してください 正規表現置換.