Tesseract OCR

Baixar e instalar o Tesseract

  • Selecione o tesseract-ocr-w64-setup-v5.3.x.exe (64 bits) arquivo para baixar o instalador executável do Tesseract

  • Depois de baixado, abra o arquivo executável e siga as instruções de instalação

circle-info

Certifique-se de ter instalado o tesseract-64bit em C:\Program Files\Tesseract-OCR

Arquivos de dados treinados (Idiomas)

Você pode baixar o .traineddata arquivo para o idioma que você precisa e colocá-lo no diretório de instalação do Tesseract OCR C:\Program Files\Tesseract-OCR\tessdata\[aqui] (isso deve ser o mesmo local onde o diretório tessdata está instalado)

tessdata https://github.com/tesseract-ocr/tessdataarrow-up-right Velocidade: Mais rápido que tessdata-best Precisão: Ligeiramente menos preciso que tessdata-best

tessdata-best (Recomendado para videogames) https://github.com/tesseract-ocr/tessdata_bestarrow-up-right Velocidade: Mais lento Precisão: Mais preciso

tessdata-fast https://github.com/tesseract-ocr/tessdata_fastarrow-up-right Velocidade: Mais rápido Precisão: Menos preciso

Modos de segmentação de página

O PSM permite selecionar um método de segmentação dependendo da sua imagem específica e do ambiente em que ela foi capturada

Modos de segmentação de página

1

Detecção apenas de orientação e escrita (OSD).

2

Segmentação automática de página com OSD.

3

Segmentação automática de página, mas sem OSD ou OCR. (não implementado)

4

Segmentação de página totalmente automática, mas sem OSD. (Padrão)

5

Assumir uma única coluna de texto de tamanhos variáveis.

6

Assumir um único bloco uniforme de texto alinhado verticalmente.

7

Assumir um único bloco uniforme de texto.

8

Tratar a imagem como uma única linha de texto.

9

Tratar a imagem como uma única palavra.

10

Tratar a imagem como uma única palavra em um círculo.

11

Tratar a imagem como um único caractere.

12

Texto esparso. Encontrar o máximo de texto possível sem ordem específica.

13

Texto esparso com OSD.

14

Linha bruta. Tratar a imagem como uma única linha de texto, ignorando ajustes específicos do Tesseract.