Постобработка

Постобработка уточняет вывод OCR после распознавания текста. Этот шаг помогает исправлять распространённые ошибки OCR, удалять нежелательные символы и правильно форматировать текст перед переводом.

Примечание: Постобработка полезна для всех типов OCR-движков. Даже современные и основанные на ИИ OCR-движки могут выдавать текст, требующий форматирования или исправления.

Когда использовать постобработку

Используйте постобработку, когда:

  • OCR постоянно распознаёт символы неправильно ("l" как "|", "0" как "O")

  • Вам нужно удалить определённые символы или знаки

  • Требуется корректировка форматирования текста. (переносы строк, кавычки)

  • Вы хотите стандартизировать шаблоны символов

  • Вывод OCR содержит нежелательные символы

Регулярные выражения (RegExp)

Регулярные выражения (RegExp) — это шаблоны, используемые для поиска и обработки текста. VNTranslator поддерживает два типа операций с RegExp:

1. Поиск по RegExp

Определяет и извлекает конкретные шаблоны текста из вывода OCR. Сохраняется только текст, соответствующий шаблону.

Варианты использования:

  • Извлекать только японские символы и игнорировать другие знаки

  • Сохранять только символы определённого языка

  • Удалить всё, кроме основного диалогового текста

Пример:

Этот шаблон соответствует и извлекает только японские символы (кандзи, хирагану, катакану и японские символы).

Для получения подробностей см. Сопоставление RegExp.

2. Замена по RegExp (Поиск и замена)

Ищет конкретные шаблоны текста и заменяет их другим текстом. Это наиболее часто используемая техника постобработки.

Варианты использования:

  • Исправлять распространённые ошибки распознавания OCR

  • Заменять неправильные кавычки на правильные

  • Удалять нежелательные символы или знаки

  • Нормализовать форматирование текста

  • Исправлять переносы строк и проблемы с пробелами

Распространённые примеры:

Заменить кавычки:

Удалить музыкальные символы:

Исправить многоточие:

Удалить переводы строк:

Исправить распространённые ошибки OCR:

Для получения подробностей см. Замена RegExp.