Tesseract OCR

Télécharger et installer Tesseract

  • Sélectionnez le tesseract-ocr-w64-setup-v5.3.x.exe (64 bits) fichier pour télécharger le programme d'installation exécutable de Tesseract

  • Une fois téléchargé, ouvrez le fichier exécutable et suivez les instructions d'installation

circle-info

Assurez-vous d'avoir installé la version 64 bits de tesseract dans C:\Program Files\Tesseract-OCR

Fichiers de données entraînées (langues)

Vous pouvez télécharger le .traineddata fichier pour la langue dont vous avez besoin et le placer dans le répertoire d'installation de Tesseract OCR C:\Program Files\Tesseract-OCR\tessdata\[ici] (cela doit être le même emplacement que celui où le répertoire tessdata est installé)

tessdata https://github.com/tesseract-ocr/tessdataarrow-up-right Vitesse : Plus rapide que tessdata-best Précision : Légèrement moins précise que tessdata-best

tessdata-best (Recommandé pour les jeux vidéo) https://github.com/tesseract-ocr/tessdata_bestarrow-up-right Vitesse : La plus lente Précision : La plus précise

tessdata-fast https://github.com/tesseract-ocr/tessdata_fastarrow-up-right Vitesse : La plus rapide Précision : La moins précise

Modes de segmentation de page

Le PSM vous permet de sélectionner une méthode de segmentation en fonction de votre image particulière et de l'environnement dans lequel elle a été capturée

modes de segmentation de page

1

Détection d'orientation et de script (OSD) uniquement.

2

Segmentation automatique de la page avec OSD.

3

Segmentation automatique de la page, mais sans OSD ni OCR. (non implémenté)

4

Segmentation de page entièrement automatique, mais sans OSD. (Par défaut)

5

Supposer une colonne unique de texte de tailles variables.

6

Supposer un seul bloc uniforme de texte aligné verticalement.

7

Supposer un seul bloc uniforme de texte.

8

Considérer l'image comme une seule ligne de texte.

9

Considérer l'image comme un seul mot.

10

Considérer l'image comme un seul mot dans un cercle.

11

Considérer l'image comme un seul caractère.

12

Texte épars. Trouver autant de texte que possible sans ordre particulier.

13

Texte épars avec OSD.

14

Ligne brute. Considérer l'image comme une seule ligne de texte, en contournant les astuces spécifiques à Tesseract.