OCR の理解と精度向上

このガイドは、VNTranslatorにおけるOCRの仕組みを説明し、文字認識精度を向上させる実践的なヒントを提供します。

注意: このガイドは主に従来のOCRエンジン(Tesseract OCRおよびWindows OCR)に焦点を当てています。Fast OCRのような最新のOCRエンジン、LLMベースのエンジン(Qwen 2.5 VL、GPT-4 Vision、Claude Vision)、またはクラウドベースのエンジン(Google Cloud Vision、Azure Cloud Vision)を使用している場合、これらのエンジンは複雑な背景やカラー文字を自動的に処理するため、ほとんどの前処理調整は省略できます。

VNTranslatorにおけるOCRの仕組み

1. 画面キャプチャ

OCRプロセスの最初のステップは画面から画像をキャプチャすることです。キャプチャした画像の品質は、OCRエンジンが文字を正確に認識できるかどうかに大きく影響します。

2. 前処理(画像処理)

従来のOCRエンジン専用。

前処理は主に以下を使用する際に必要です Tesseract OCR または Windows OCR高速OCR, LLMベースのエンジン、および クラウドベースのエンジン は、前処理の調整なしでさまざまな文字条件を処理できます。

前処理では、画像を黒い文字を白い背景に表示するよう調整します。このコントラストにより、従来のOCRエンジンが文字を認識しやすくなります。

前処理を使用すべき場合:

  • Tesseract OCRまたはWindows OCRを使用している場合

  • ゲームのテキストにカラー背景がある場合

  • 文字と背景のコントラストが低い場合

  • 従来のエンジンの認識精度を向上させる必要がある場合

前処理が不要な場合:

  • Fast OCRや最新のOCRエンジンを使用している場合

  • LLMベースのエンジン(Qwen 2.5 VL、GPT-4 Vision、Claude Vision)を使用している場合

  • クラウドベースのエンジン(Google Cloud Vision、Azure Cloud Vision)を使用している場合

3. OCRエンジンの選択

文字認識精度は選択するOCRエンジンに大きく依存します。VNTranslatorは3つのカテゴリのOCRエンジンをサポートしています:

従来型OCRエンジン

  • 例: Tesseract OCR、Windows OCR

  • 最適な用途: 白背景に黒文字の単純なテキスト

  • 制限: カラー文字や複雑な背景に弱い場合がある

  • 必要なこと: 精度を向上させるための前処理調整

最新型OCRエンジン ⭐⭐⭐

  • 例: Fast OCR、EasyOCR

  • 最適な用途: 中程度の背景ノイズや多色のテキスト

  • 利点: 前処理なしでもさまざまな文字条件に対応しやすい

  • 必要なこと: 前処理は最小限または不要

AIベースOCRエンジン ⭐⭐⭐⭐⭐

  • 例: Google Cloud Vision、Azure Cloud Vision、Qwen 2.5 VL、GPT-4 Vision、Claude Vision

  • 最適な用途: 複雑な背景、回転した文字、カラー文字

  • 利点: 前処理なしで高い精度を発揮し、さまざまな文字条件を自動的に処理する

  • 必要なこと: 前処理は不要

OCRエンジンの完全な比較については、を参照してください OCRエンジン一覧.

4. 後処理

OCRエンジンがテキストを処理した後、結果が表示されます。認識が不正確な場合、後処理で正規表現(RegExp)を使用して結果を修正できます。

後処理はすべてのOCRエンジンタイプで次の目的に役立ちます:

  • 不要な文字の除去

  • 一般的な認識エラーの修正

  • 出力テキストのフォーマット


OCR精度を向上させるためのヒント

従来のOCRエンジン向け(Tesseract、Windows OCR)

  1. 高品質な画像キャプチャを確保する: 画面キャプチャの品質が高いほど、OCRの精度は向上します。ぼやけた画像や低解像度の画像は避けてください。

  2. 効果的な前処理を使用する: 画像を高コントラスト(白背景に黒文字)に調整して、OCRエンジンが文字を認識しやすくします。

  3. 適切なしきい値設定を選択する: 前処理オプションのしきい値値を試して、あなたのゲームに最適な設定を見つけてください。

最新型およびAIベースのOCRエンジン向け

  1. 高品質な画像キャプチャを確保する: 良好なキャプチャ品質は依然として有益ですが、これらのエンジンは画像品質に対してより寛容です。

  2. 前処理をスキップする: 最新型およびAIベースのOCRエンジンは、前処理調整なしの元画像で最もよく機能します。

  3. ニーズに合ったエンジンを選ぶ:

    • オフラインで高速な認識を中程度の精度で行うには、を使用してください 高速OCR 複雑なテキストで最高の精度を得るには、を使用してください

    • オフラインで高速な認識を中程度の精度で行うには、を使用してください クラウドベースのエンジン 最大の柔軟性と精度を求めるには、を使用してください

    • オフラインで高速な認識を中程度の精度で行うには、を使用してください LLMベースのエンジン すべてのOCRエンジンタイプ向け

後処理を活用する:

  1. 文字認識が誤っている場合や特定の文字を削除したい場合、後処理でRegExpを使用して出力を調整してください。 キャプチャ領域を正しく配置する:

  2. キャプチャ領域がテキストのダイアログボックスだけを覆うようにして、不要な要素をキャプチャしないようにしてください。 異なるエンジンを試す:

  3. 特定のゲームやビジュアルノベルに最適なものを見つけるために、さまざまなOCRエンジンを試してください。