後処理

ポストプロセッシングは、テキストが認識された後にOCR出力を整える処理です。このステップは、一般的なOCRの誤りを修正し、不要な文字を削除し、翻訳前にテキストを適切に整形するのに役立ちます。

注意： ポストプロセッシングが有用なのは すべてのOCRエンジンタイプです。最新のAIベースのOCRエンジンであっても、整形や修正が必要なテキストを生成することがあります。

次の場合にポストプロセッシングを使用してください：

正規表現（RegExp）は、テキストを検索・操作するためのパターンです。VNTranslatorは2種類のRegExp操作をサポートしています：

OCR出力から特定のテキストパターンを識別して抽出します。パターンに一致するテキストのみが保持されます。

利用例：

例：

このパターンは日本語文字（漢字、ひらがな、カタカナ、および日本語の記号）のみをマッチングして抽出します。

["[一-龠]+|[ぁ-ゔ]+|[ァ-ヴー]+|[々〆〤]+|[⺀-⿕]+|[、-〿]+|[ㇰ-ㇿ㈠-㉃㊀-㍿]+", "gmu"]

詳細については、を参照してください RegExpマッチング.

特定のテキストパターンを検索し、それらを別のテキストに置換します。これは最も一般的に使われるポストプロセッシング手法です。

利用例：

よくある例：

引用符を置換する：

["『", "g", "「"]
["』", "g", "」"]

音楽記号を削除する：

["♪", "g", ""]

省略記号を修正する：

["。。。", "g", "..."]

改行を削除する：

["(\\r\\n|\\n|\\r)", "gm", " "]

一般的なOCRエラーを修正する：

["\\\\|", "g", "I"]

詳細については、を参照してください正規表現置換.