后处理

后处理在识别出文本之后对 OCR 输出进行精炼。此步骤有助于纠正常见的 OCR 错误、删除不需要的字符,并在翻译前正确格式化文本。

注意: 后处理适用于 所有 OCR 引擎类型。即使是现代的基于 AI 的 OCR 引擎也可能产生需要格式化或修正的文本。

何时使用后处理

在以下情况下使用后处理:

  • OCR 持续识别错误字符(例如将“l”识别为“|”,将“0”识别为“O”)

  • 需要移除特定字符或符号

  • 文本格式需要调整(换行、引号)

  • 您希望标准化字符模式

  • OCR 输出包含不需要的字符

正则表达式(RegExp)

正则表达式(RegExp)是用于搜索和操作文本的模式。VNTranslator 支持两种类型的 RegExp 操作:

1. RegExp 匹配

识别并从 OCR 输出中提取特定的文本模式。只有与模式匹配的文本会被保留。

使用场景:

  • 仅提取日文字符并忽略其他符号

  • 仅保留特定语言的字符

  • 移除除主要对话文本之外的所有内容

示例:

此模式仅匹配并提取日文字符(汉字、平假名、片假名和日文符号)。

欲了解更多细节,请参阅 正则匹配.

2. RegExp 替换(搜索与替换)

搜索特定的文本模式并将其替换为其他文本。这是最常用的后处理技术。

使用场景:

  • 修复常见的 OCR 识别错误

  • 将错误的引号替换为正确的引号

  • 移除不需要的字符或符号

  • 规范化文本格式

  • 修正换行和间距问题

常见示例:

替换引号:

移除音乐符号:

修复省略号:

移除换行:

修复常见 OCR 错误:

欲了解更多细节,请参阅 正则替换.