Tesseract OCR

Загрузите и установите Tesseract

  • Выберите tesseract-ocr-w64-setup-v5.3.x.exe (64 бит) файл, чтобы скачать установщик Tesseract

  • После загрузки откройте исполняемый файл и следуйте инструкциям установки

circle-info

Убедитесь, что вы установили tesseract-64bit в C:\Program Files\Tesseract-OCR

Файлы обучающих данных (языки)

Вы можете скачать .traineddata файл для необходимого вам языка и поместить его в каталог установки Tesseract OCR C:\Program Files\Tesseract-OCR\tessdata\[здесь] (это должно совпадать с местом установки каталога tessdata)

tessdata https://github.com/tesseract-ocr/tessdataarrow-up-right Скорость : Быстрее, чем tessdata-best Точность : Немного менее точная, чем tessdata-best

tessdata-best (Рекомендуется для видеоигр) https://github.com/tesseract-ocr/tessdata_bestarrow-up-right Скорость : Самая медленная Точность : Наиболее точная

tessdata-fast https://github.com/tesseract-ocr/tessdata_fastarrow-up-right Скорость : Самая быстрая Точность : Наименее точная

Режимы сегментации страницы

PSM позволяет выбрать метод сегментации в зависимости от конкретного изображения и условий, в которых оно было снято

Режимы сегментации страницы

1

Только определение ориентации и сценария (OSD).

2

Автоматическая сегментация страницы с OSD.

3

Автоматическая сегментация страницы, но без OSD или OCR. (не реализовано)

4

Полностью автоматическая сегментация страницы, но без OSD. (По умолчанию)

5

Предполагается один столбец текста переменного размера.

6

Предполагается один одинаковый блок вертикально выровненного текста.

7

Предполагается один одинаковый блок текста.

8

Обрабатывать изображение как одну строку текста.

9

Обрабатывать изображение как одно слово.

10

Обрабатывать изображение как одно слово в круге.

11

Обрабатывать изображение как один символ.

12

Разреженный текст. Найти как можно больше текста без определенного порядка.

13

Разреженный текст с OSD.

14

Сырой ряд. Обрабатывать изображение как одну строку текста, обходя специфичные для Tesseract оптимизации.