후처리
후처리는 텍스트가 인식된 후 OCR 출력물을 정제하는 과정입니다. 이 단계는 일반적인 OCR 오류를 수정하고, 원치 않는 문자를 제거하며, 번역 전에 텍스트를 적절히 형식화하는 데 도움을 줍니다.
참고: 후처리는 다음에 유용합니다 모든 OCR 엔진 유형에도. 최신의 AI 기반 OCR 엔진조차도 형식화나 수정이 필요한 텍스트를 생성할 수 있습니다.
후처리 사용 시기
다음과 같은 경우 후처리를 사용하세요:
OCR이 일관되게 잘못된 문자를 인식하는 경우 ("l"을 "|"로, "0"을 "O"로 인식 등)
특정 문자나 기호를 제거해야 하는 경우
텍스트 형식 조정이 필요한 경우 (줄 바꿈, 인용 부호 등)
문자 패턴을 표준화하려는 경우
OCR 출력에 원치 않는 문자가 포함된 경우
정규 표현식 (RegExp)
정규 표현식(RegExp)은 텍스트를 검색하고 조작하는 데 사용되는 패턴입니다. VNTranslator는 두 가지 유형의 RegExp 작업을 지원합니다:
1. RegExp 매칭
OCR 출력에서 특정 텍스트 패턴을 식별하고 추출합니다. 패턴과 일치하는 텍스트만 유지됩니다.
사용 사례:
일본어 문자만 추출하고 다른 기호는 무시
특정 언어 문자만 유지
메인 대사 텍스트를 제외한 모든 것을 제거
예시:
이 패턴은 일본어 문자(한자, 히라가나, 가타카나 및 일본어 기호)만 매칭하여 추출합니다.
자세한 내용은 정규식 일치.
2. RegExp 대체(검색 및 바꾸기)
특정 텍스트 패턴을 검색하고 다른 텍스트로 대체합니다. 이것은 가장 일반적으로 사용되는 후처리 기법입니다.
사용 사례:
일반적인 OCR 인식 오류 수정
잘못된 인용 부호를 올바른 것으로 교체
원치 않는 문자나 기호 제거
텍스트 형식 정규화
줄 바꿈 및 공백 문제 수정
일반적인 예:
인용 부호 교체:
음표 기호 제거:
생략부호 수정:
줄 바꿈 제거:
일반적인 OCR 오류 수정:
자세한 내용은 정규식 치환.