Tesseract OCR
Télécharger et installer Tesseract
Visitez le Tesseract à UB Mannheim
Sélectionnez le tesseract-ocr-w64-setup-v5.3.x.exe (64 bits) fichier pour télécharger le programme d'installation exécutable de Tesseract
Une fois téléchargé, ouvrez le fichier exécutable et suivez les instructions d'installation
Assurez-vous d'avoir installé la version 64 bits de tesseract dans C:\Program Files\Tesseract-OCR
Fichiers de données entraînées (langues)
Vous pouvez télécharger le .traineddata fichier pour la langue dont vous avez besoin et le placer dans le répertoire d'installation de Tesseract OCR C:\Program Files\Tesseract-OCR\tessdata\[ici]
(cela doit être le même emplacement que celui où le répertoire tessdata est installé)
tessdata https://github.com/tesseract-ocr/tessdata Vitesse : Plus rapide que tessdata-best Précision : Légèrement moins précise que tessdata-best
tessdata-best
(Recommandé pour les jeux vidéo)https://github.com/tesseract-ocr/tessdata_best Vitesse : La plus lente Précision : La plus précise
tessdata-fast https://github.com/tesseract-ocr/tessdata_fast Vitesse : La plus rapide Précision : La moins précise
Modes de segmentation de page
Le PSM vous permet de sélectionner une méthode de segmentation en fonction de votre image particulière et de l'environnement dans lequel elle a été capturée
1
Détection d'orientation et de script (OSD) uniquement.
2
Segmentation automatique de la page avec OSD.
3
Segmentation automatique de la page, mais sans OSD ni OCR. (non implémenté)
4
Segmentation de page entièrement automatique, mais sans OSD. (Par défaut)
5
Supposer une colonne unique de texte de tailles variables.
6
Supposer un seul bloc uniforme de texte aligné verticalement.
7
Supposer un seul bloc uniforme de texte.
8
Considérer l'image comme une seule ligne de texte.
9
Considérer l'image comme un seul mot.
10
Considérer l'image comme un seul mot dans un cercle.
11
Considérer l'image comme un seul caractère.
12
Texte épars. Trouver autant de texte que possible sans ordre particulier.
13
Texte épars avec OSD.
14
Ligne brute. Considérer l'image comme une seule ligne de texte, en contournant les astuces spécifiques à Tesseract.