Tesseract OCR
Tesseract をダウンロードしてインストールする
にアクセスしてください UB Mannheim の Tesseract
を選択してください tesseract-ocr-w64-setup-v5.3.x.exe (64 ビット) ファイルを選んで Tesseract 実行ファイルのインストーラーをダウンロードします
ダウンロードが完了したら、実行ファイルを開き、インストールの指示に従ってください
C:\Program Files\Tesseract-OCR に tesseract-64bit をインストールしたことを確認してください
学習済みデータファイル(言語)
次の .traineddata 必要な言語のファイルをダウンロードして Tesseract OCR のインストールディレクトリに配置できます C:\Program Files\Tesseract-OCR\tessdata\[ここ]
(これは tessdata ディレクトリがインストールされている場所と同じである必要があります)
tessdata https://github.com/tesseract-ocr/tessdata 速度:tessdata-best より速い 精度:tessdata-best よりやや劣る
tessdata-best
(ビデオゲーム向けに推奨)https://github.com/tesseract-ocr/tessdata_best 速度:最も遅い 精度:最も高い
tessdata-fast https://github.com/tesseract-ocr/tessdata_fast 速度:最も速い 精度:最も低い
ページ分割モード
PSM は、特定の画像や撮影環境に応じた分割方法を選択できるようにします
1
方向とスクリプト検出(OSD)のみ。
2
OSD を伴う自動ページ分割。
3
自動ページ分割だが OSD や OCR は行わない。(未実装)
4
完全自動のページ分割だが OSD は行わない。(デフォルト)
5
可変サイズの単一列のテキストと仮定する。
6
垂直に整列した単一の均一なテキストブロックと仮定する。
7
単一の均一なテキストブロックと仮定する。
8
画像を単一のテキスト行として扱う。
9
画像を単一の単語として扱う。
10
画像を円形の単一単語として扱う。
11
画像を単一の文字として扱う。
12
疎なテキスト。特定の順序を気にせず可能な限り多くのテキストを見つける。
13
OSD を伴う疎なテキスト。
14
生の行。画像を単一のテキスト行として扱い、Tesseract 固有の回避策をバイパスする。