Tesseract OCR

下载并安装 Tesseract

  • 选择 tesseract-ocr-w64-setup-v5.3.x.exe(64 位)文件以下载 Tesseract 可执行安装程序

  • 下载后,打开可执行文件并按照安装提示进行操作

circle-info

确保已将 tesseract-64bit 安装在 C:\Program Files\Tesseract-OCR

训练数据文件(语言)

您可以下载 .traineddata 您所需语言的文件并将其放置在 Tesseract OCR 安装目录中 C:\Program Files\Tesseract-OCR\tessdata\[此处] (这应与 tessdata 目录的安装位置相同)

tessdata https://github.com/tesseract-ocr/tessdataarrow-up-right 速度:比 tessdata-best 更快 准确度:比 tessdata-best 略低

tessdata-best (推荐用于视频游戏) https://github.com/tesseract-ocr/tessdata_bestarrow-up-right 速度:最慢 准确度:最准确

tessdata-fast https://github.com/tesseract-ocr/tessdata_fastarrow-up-right 速度:最快 准确度:最不准确

页面分割模式

PSM 允许您根据特定图像及其拍摄环境选择分割方法

页面分割模式

1

仅方向和脚本检测(OSD)。

2

带 OSD 的自动页面分割。

3

自动页面分割,但无 OSD 或 OCR。(未实现)

4

完全自动的页面分割,但无 OSD。(默认)

5

假定单列可变大小文本。

6

假定为单个垂直对齐的均匀文本块。

7

假定为单个均匀的文本块。

8

将图像视为单行文本。

9

将图像视为单个单词。

10

将图像视为圆形中的单个单词。

11

将图像视为单个字符。

12

稀疏文本。尽可能在任何顺序中查找文本。

13

带 OSD 的稀疏文本。

14

原始行。将图像视为单行文本,绕过针对 Tesseract 的特定修补。