Понимание OCR и повышение точности

Это руководство объясняет, как работает OCR в VNTranslator, и предоставляет практические советы по повышению точности распознавания текста.

Примечание: Это руководство в основном посвящено традиционным OCR-движкам (Tesseract OCR и Windows OCR). Если вы используете современные OCR-движки, такие как Fast OCR, движки на базе LLM (Qwen 2.5 VL, GPT-4 Vision, Claude Vision) или облачные движки (Google Cloud Vision, Azure Cloud Vision), вы можете пропустить большинство настроек предварительной обработки, так как эти движки автоматически справляются со сложными фонами и цветным текстом.

Как работает OCR в VNTranslator

1. Снимок экрана

Первый шаг в процессе OCR — захват изображения с экрана. Качество захваченного изображения существенно влияет на способность OCR-движка точно распознавать текст.

2. Предварительная обработка (обработка изображения)

Только для традиционных OCR-движков.
Предварительная обработка в основном требуется при использовании Tesseract OCR или Windows OCR. Современные OCR-движки, такие как Fast OCR, движки на базе LLM, и облачные движки могут справляться с различными условиями текста без настроек предварительной обработки.

Во время предварительной обработки изображение корректируется так, чтобы текст был черным на белом фоне. Такой контраст облегчает распознавание текста традиционными OCR-движками.

Когда следует использовать предварительную обработку:

При использовании Tesseract OCR или Windows OCR
Текст в игре имеет цветные фоны
Низкий контраст между текстом и фоном
Необходимо повысить точность распознавания для традиционных движков

Когда предварительная обработка НЕ требуется:

При использовании Fast OCR или современных OCR-движков
При использовании движков на базе LLM (Qwen 2.5 VL, GPT-4 Vision, Claude Vision)
При использовании облачных движков (Google Cloud Vision, Azure Cloud Vision)

3. Выбор OCR-движка

Точность распознавания текста сильно зависит от выбранного OCR-движка. VNTranslator поддерживает три категории OCR-движков:

Традиционные OCR-движки ⭐

Примеры: Tesseract OCR, Windows OCR
Лучше всего подходят для: Простого текста с черным текстом на белом фоне
Ограничения: Могут испытывать трудности с цветным текстом или сложными фонами
Требуется: Настройки предварительной обработки для повышения точности

Современные OCR-движки ⭐⭐⭐

Примеры: Fast OCR, EasyOCR
Лучше всего подходят для: Умеренный уровень фоновых помех и многоцветный текст
Преимущества: Лучше справляются с различными условиями текста без предварительной обработки
Требуется: Минимальная или отсутствующая предварительная обработка

AI-движки OCR ⭐⭐⭐⭐⭐

Примеры: Google Cloud Vision, Azure Cloud Vision, Qwen 2.5 VL, GPT-4 Vision, Claude Vision
Лучше всего подходят для: Сложные фоны, повернутый текст и цветной текст
Преимущества: Высокая точность без предварительной обработки, автоматически обрабатывают различные условия текста
Требуется: Предварительная обработка не требуется

Для полного сравнения OCR-движков см. OCR-движки.

4. Постобработка

После того как OCR-движок обработает текст, результат будет отображен. Если распознавание неточное, вы можете внести исправления на этапе постобработки с помощью регулярных выражений (RegExp) для уточнения результатов.

Постобработка полезна для всех типов OCR-движков, чтобы:

Удалять нежелательные символы
Исправлять распространенные ошибки распознавания
Форматировать выходной текст

Советы по повышению точности OCR

Для традиционных OCR-движков (Tesseract, Windows OCR)

Обеспечьте высокое качество захвата изображения: Чем лучше качество снимка экрана, тем выше точность OCR. Избегайте размытых или низкокачественных изображений.
Используйте эффективную предварительную обработку: Настройте изображение так, чтобы был высокий контраст (черный текст на белом фоне), чтобы облегчить распознавание текста OCR-движком.
Выберите подходящие параметры порога: Экспериментируйте со значениями порога в опциях предварительной обработки, чтобы найти наилучшие настройки для вашей игры.

Для современных и AI-движков OCR

Обеспечьте высокое качество захвата изображения: Хорошее качество захвата по-прежнему помогает, но эти движки более терпимы к качеству изображения.
Пропустите предварительную обработку: Современные и AI-движки OCR работают лучше всего с оригинальным изображением без настроек предварительной обработки.
Выберите подходящий движок под ваши нужды:
- Используйте Fast OCR для офлайн, быстрого распознавания со средней точностью
- Используйте облачные движки для наивысшей точности при работе со сложным текстом
- Используйте движки на базе LLM для максимальной гибкости и точности

Для всех типов OCR-движков

Используйте постобработку: Если распознавание текста неверно или вы хотите удалить определенные символы, используйте RegExp на этапе постобработки для уточнения вывода.
Правильно позиционируйте область захвата: Убедитесь, что область захвата охватывает только окно диалога с текстом, чтобы не захватывать ненужные элементы.
Тестируйте разные движки: Попробуйте разные OCR-движки, чтобы найти тот, который лучше всего подходит для вашей конкретной игры или визуального романа.

ПредыдущаяПостобработка СледующаяAutoTrans

hashtagКак работает OCR в VNTranslator

hashtag1. Снимок экрана

hashtag2. Предварительная обработка (обработка изображения)

hashtag3. Выбор OCR-движка

hashtag4. Постобработка