Tesseract OCR
下载并安装 Tesseract
选择 tesseract-ocr-w64-setup-v5.3.x.exe(64 位)文件以下载 Tesseract 可执行安装程序
下载后,打开可执行文件并按照安装提示进行操作
确保已将 tesseract-64bit 安装在 C:\Program Files\Tesseract-OCR
训练数据文件(语言)
您可以下载 .traineddata 您所需语言的文件并将其放置在 Tesseract OCR 安装目录中 C:\Program Files\Tesseract-OCR\tessdata\[此处]
(这应与 tessdata 目录的安装位置相同)
tessdata https://github.com/tesseract-ocr/tessdata 速度:比 tessdata-best 更快 准确度:比 tessdata-best 略低
tessdata-best
(推荐用于视频游戏)https://github.com/tesseract-ocr/tessdata_best 速度:最慢 准确度:最准确
tessdata-fast https://github.com/tesseract-ocr/tessdata_fast 速度:最快 准确度:最不准确
页面分割模式
PSM 允许您根据特定图像及其拍摄环境选择分割方法
1
仅方向和脚本检测(OSD)。
2
带 OSD 的自动页面分割。
3
自动页面分割,但无 OSD 或 OCR。(未实现)
4
完全自动的页面分割,但无 OSD。(默认)
5
假定单列可变大小文本。
6
假定为单个垂直对齐的均匀文本块。
7
假定为单个均匀的文本块。
8
将图像视为单行文本。
9
将图像视为单个单词。
10
将图像视为圆形中的单个单词。
11
将图像视为单个字符。
12
稀疏文本。尽可能在任何顺序中查找文本。
13
带 OSD 的稀疏文本。
14
原始行。将图像视为单行文本,绕过针对 Tesseract 的特定修补。