Постобработка

Постобработка уточняет вывод OCR после распознавания текста. Этот шаг помогает исправлять распространённые ошибки OCR, удалять нежелательные символы и правильно форматировать текст перед переводом.

Примечание: Постобработка полезна для всех типов OCR-движков. Даже современные и основанные на ИИ OCR-движки могут выдавать текст, требующий форматирования или исправления.

Когда использовать постобработку

Используйте постобработку, когда:

OCR постоянно распознаёт символы неправильно ("l" как "|", "0" как "O")
Вам нужно удалить определённые символы или знаки
Требуется корректировка форматирования текста. (переносы строк, кавычки)
Вы хотите стандартизировать шаблоны символов
Вывод OCR содержит нежелательные символы

Регулярные выражения (RegExp)

Регулярные выражения (RegExp) — это шаблоны, используемые для поиска и обработки текста. VNTranslator поддерживает два типа операций с RegExp:

1. Поиск по RegExp

Определяет и извлекает конкретные шаблоны текста из вывода OCR. Сохраняется только текст, соответствующий шаблону.

Варианты использования:

Извлекать только японские символы и игнорировать другие знаки
Сохранять только символы определённого языка
Удалить всё, кроме основного диалогового текста

Пример:

Этот шаблон соответствует и извлекает только японские символы (кандзи, хирагану, катакану и японские символы).

["[一-龠]+|[ぁ-ゔ]+|[ァ-ヴー]+|[々〆〤]+|[⺀-⿕]+|[、-〿]+|[ㇰ-ㇿ㈠-㉃㊀-㍿]+", "gmu"]

Для получения подробностей см. Сопоставление RegExp.

2. Замена по RegExp (Поиск и замена)

Ищет конкретные шаблоны текста и заменяет их другим текстом. Это наиболее часто используемая техника постобработки.

Варианты использования:

Исправлять распространённые ошибки распознавания OCR
Заменять неправильные кавычки на правильные
Удалять нежелательные символы или знаки
Нормализовать форматирование текста
Исправлять переносы строк и проблемы с пробелами

Распространённые примеры:

Заменить кавычки:

["『", "g", "「"]
["』", "g", "」"]

Удалить музыкальные символы:

["♪", "g", ""]

Исправить многоточие:

["。。。", "g", "..."]

Удалить переводы строк:

["(\\r\\n|\\n|\\r)", "gm", " "]

Исправить распространённые ошибки OCR:

["\\\\|", "g", "I"]

Для получения подробностей см. Замена RegExp.

ПредыдущаяПредобработка СледующаяПонимание OCR и повышение точности

hashtagКогда использовать постобработку

hashtagРегулярные выражения (RegExp)

hashtag1. Поиск по RegExp

hashtag2. Замена по RegExp (Поиск и замена)

Когда использовать постобработку

Регулярные выражения (RegExp)

1. Поиск по RegExp

2. Замена по RegExp (Поиск и замена)