Tesseract OCR

Descargar e instalar Tesseract

  • Selecciona el tesseract-ocr-w64-setup-v5.3.x.exe (64 bits) archivo para descargar el instalador ejecutable de Tesseract

  • Una vez descargado, abre el archivo ejecutable y sigue las indicaciones de instalación

circle-info

Asegúrate de haber instalado tesseract-64bit en C:\Program Files\Tesseract-OCR

Archivos de datos entrenados (Idiomas)

Puedes descargar el .traineddata archivo para el idioma que necesites y colocarlo en el directorio de instalación de Tesseract OCR C:\Program Files\Tesseract-OCR\tessdata\[aquí] (esto debería ser lo mismo que donde se instaló el directorio tessdata)

tessdata https://github.com/tesseract-ocr/tessdataarrow-up-right Velocidad: Más rápido que tessdata-best Precisión: Ligeramente menos preciso que tessdata-best

tessdata-best (Recomendado para videojuegos) https://github.com/tesseract-ocr/tessdata_bestarrow-up-right Velocidad: Más lento Precisión: Más preciso

tessdata-fast https://github.com/tesseract-ocr/tessdata_fastarrow-up-right Velocidad: Más rápido Precisión: Menos preciso

Modos de segmentación de página

El PSM te permite seleccionar un método de segmentación dependiendo de tu imagen particular y del entorno en el que fue capturada

Modos de segmentación de página

1

Detección de orientación y escritura (OSD) solamente.

2

Segmentación automática de página con OSD.

3

Segmentación automática de página, pero sin OSD ni OCR. (no implementado)

4

Segmentación de página totalmente automática, pero sin OSD. (Predeterminado)

5

Asumir una única columna de texto de tamaños variables.

6

Asumir un único bloque uniforme de texto alineado verticalmente.

7

Asumir un único bloque uniforme de texto.

8

Tratar la imagen como una sola línea de texto.

9

Tratar la imagen como una sola palabra.

10

Tratar la imagen como una sola palabra en un círculo.

11

Tratar la imagen como un solo carácter.

12

Texto disperso. Encontrar tanto texto como sea posible sin un orden particular.

13

Texto disperso con OSD.

14

Línea cruda. Tratar la imagen como una sola línea de texto, omitiendo los ajustes específicos de Tesseract.