后处理
后处理在识别出文本之后对 OCR 输出进行精炼。此步骤有助于纠正常见的 OCR 错误、删除不需要的字符,并在翻译前正确格式化文本。
注意: 后处理适用于 所有 OCR 引擎类型。即使是现代的基于 AI 的 OCR 引擎也可能产生需要格式化或修正的文本。
何时使用后处理
在以下情况下使用后处理:
OCR 持续识别错误字符(例如将“l”识别为“|”,将“0”识别为“O”)
需要移除特定字符或符号
文本格式需要调整(换行、引号)
您希望标准化字符模式
OCR 输出包含不需要的字符
正则表达式(RegExp)
正则表达式(RegExp)是用于搜索和操作文本的模式。VNTranslator 支持两种类型的 RegExp 操作:
1. RegExp 匹配
识别并从 OCR 输出中提取特定的文本模式。只有与模式匹配的文本会被保留。
使用场景:
仅提取日文字符并忽略其他符号
仅保留特定语言的字符
移除除主要对话文本之外的所有内容
示例:
此模式仅匹配并提取日文字符(汉字、平假名、片假名和日文符号)。
欲了解更多细节,请参阅 正则匹配.
2. RegExp 替换(搜索与替换)
搜索特定的文本模式并将其替换为其他文本。这是最常用的后处理技术。
使用场景:
修复常见的 OCR 识别错误
将错误的引号替换为正确的引号
移除不需要的字符或符号
规范化文本格式
修正换行和间距问题
常见示例:
替换引号:
移除音乐符号:
修复省略号:
移除换行:
修复常见 OCR 错误:
欲了解更多细节,请参阅 正则替换.