후처리

후처리는 텍스트가 인식된 후 OCR 출력물을 정제하는 과정입니다. 이 단계는 일반적인 OCR 오류를 수정하고, 원치 않는 문자를 제거하며, 번역 전에 텍스트를 적절히 형식화하는 데 도움을 줍니다.

참고: 후처리는 다음에 유용합니다 모든 OCR 엔진 유형에도. 최신의 AI 기반 OCR 엔진조차도 형식화나 수정이 필요한 텍스트를 생성할 수 있습니다.

후처리 사용 시기

다음과 같은 경우 후처리를 사용하세요:

  • OCR이 일관되게 잘못된 문자를 인식하는 경우 ("l"을 "|"로, "0"을 "O"로 인식 등)

  • 특정 문자나 기호를 제거해야 하는 경우

  • 텍스트 형식 조정이 필요한 경우 (줄 바꿈, 인용 부호 등)

  • 문자 패턴을 표준화하려는 경우

  • OCR 출력에 원치 않는 문자가 포함된 경우

정규 표현식 (RegExp)

정규 표현식(RegExp)은 텍스트를 검색하고 조작하는 데 사용되는 패턴입니다. VNTranslator는 두 가지 유형의 RegExp 작업을 지원합니다:

1. RegExp 매칭

OCR 출력에서 특정 텍스트 패턴을 식별하고 추출합니다. 패턴과 일치하는 텍스트만 유지됩니다.

사용 사례:

  • 일본어 문자만 추출하고 다른 기호는 무시

  • 특정 언어 문자만 유지

  • 메인 대사 텍스트를 제외한 모든 것을 제거

예시:

이 패턴은 일본어 문자(한자, 히라가나, 가타카나 및 일본어 기호)만 매칭하여 추출합니다.

자세한 내용은 정규식 일치.

2. RegExp 대체(검색 및 바꾸기)

특정 텍스트 패턴을 검색하고 다른 텍스트로 대체합니다. 이것은 가장 일반적으로 사용되는 후처리 기법입니다.

사용 사례:

  • 일반적인 OCR 인식 오류 수정

  • 잘못된 인용 부호를 올바른 것으로 교체

  • 원치 않는 문자나 기호 제거

  • 텍스트 형식 정규화

  • 줄 바꿈 및 공백 문제 수정

일반적인 예:

인용 부호 교체:

음표 기호 제거:

생략부호 수정:

줄 바꿈 제거:

일반적인 OCR 오류 수정:

자세한 내용은 정규식 치환.