Tesseract OCR
Загрузите и установите Tesseract
Посетите Tesseract на UB Mannheim
Выберите tesseract-ocr-w64-setup-v5.3.x.exe (64 бит) файл, чтобы скачать установщик Tesseract
После загрузки откройте исполняемый файл и следуйте инструкциям установки
Убедитесь, что вы установили tesseract-64bit в C:\Program Files\Tesseract-OCR
Файлы обучающих данных (языки)
Вы можете скачать .traineddata файл для необходимого вам языка и поместить его в каталог установки Tesseract OCR C:\Program Files\Tesseract-OCR\tessdata\[здесь]
(это должно совпадать с местом установки каталога tessdata)
tessdata https://github.com/tesseract-ocr/tessdata Скорость : Быстрее, чем tessdata-best Точность : Немного менее точная, чем tessdata-best
tessdata-best
(Рекомендуется для видеоигр)https://github.com/tesseract-ocr/tessdata_best Скорость : Самая медленная Точность : Наиболее точная
tessdata-fast https://github.com/tesseract-ocr/tessdata_fast Скорость : Самая быстрая Точность : Наименее точная
Режимы сегментации страницы
PSM позволяет выбрать метод сегментации в зависимости от конкретного изображения и условий, в которых оно было снято
1
Только определение ориентации и сценария (OSD).
2
Автоматическая сегментация страницы с OSD.
3
Автоматическая сегментация страницы, но без OSD или OCR. (не реализовано)
4
Полностью автоматическая сегментация страницы, но без OSD. (По умолчанию)
5
Предполагается один столбец текста переменного размера.
6
Предполагается один одинаковый блок вертикально выровненного текста.
7
Предполагается один одинаковый блок текста.
8
Обрабатывать изображение как одну строку текста.
9
Обрабатывать изображение как одно слово.
10
Обрабатывать изображение как одно слово в круге.
11
Обрабатывать изображение как один символ.
12
Разреженный текст. Найти как можно больше текста без определенного порядка.
13
Разреженный текст с OSD.
14
Сырой ряд. Обрабатывать изображение как одну строку текста, обходя специфичные для Tesseract оптимизации.