OCR 이해 및 정확도 향상

이 가이드는 VNTranslator에서 OCR이 어떻게 작동하는지 설명하고 텍스트 인식 정확도를 향상시키기 위한 실용적인 팁을 제공합니다.

참고: 이 가이드는 주로 전통적인 OCR 엔진(Tesseract OCR 및 Windows OCR)에 중점을 둡니다. Fast OCR와 같은 최신 OCR 엔진, LLM 기반 엔진(Qwen 2.5 VL, GPT-4 Vision, Claude Vision) 또는 클라우드 기반 엔진(Google Cloud Vision, Azure Cloud Vision)을 사용하는 경우 이러한 엔진은 복잡한 배경과 색상 텍스트를 자동으로 처리하므로 대부분의 전처리 조정을 건너뛸 수 있습니다.

VNTranslator에서 OCR이 작동하는 방식

1. 화면 캡처

OCR 프로세스의 첫 번째 단계는 화면에서 이미지를 캡처하는 것입니다. 캡처된 이미지의 품질은 OCR 엔진이 텍스트를 정확하게 인식하는 능력에 큰 영향을 줍니다.

2. 전처리(이미지 처리)

전통적 OCR 엔진 전용입니다.

전처리는 주로 다음을 사용할 때 필요합니다 Tesseract OCR 또는 Windows OCR . 최신 OCR 엔진인 Fast OCR, LLM 기반 엔진, 그리고 클라우드 기반 엔진 은(는) 전처리 조정 없이 다양한 텍스트 조건을 처리할 수 있습니다.

전처리 중에는 이미지가 검은색 텍스트가 흰색 배경에 나타나도록 조정됩니다. 이 대비는 전통적 OCR 엔진이 텍스트를 인식하기 쉽게 만듭니다.

전처리를 사용해야 할 때:

  • Tesseract OCR 또는 Windows OCR 사용 시

  • 게임 텍스트에 색이 있는 배경이 있는 경우

  • 텍스트와 배경 사이의 대비가 낮은 경우

  • 전통적 엔진의 인식 정확도를 향상시켜야 하는 경우

전처리가 필요하지 않을 때:

  • Fast OCR 또는 최신 OCR 엔진을 사용하는 경우

  • LLM 기반 엔진(Qwen 2.5 VL, GPT-4 Vision, Claude Vision)을 사용하는 경우

  • 클라우드 기반 엔진(Google Cloud Vision, Azure Cloud Vision)을 사용하는 경우

3. OCR 엔진 선택하기

텍스트 인식 정확도는 선택한 OCR 엔진에 크게 의존합니다. VNTranslator는 세 가지 범주의 OCR 엔진을 지원합니다:

전통적 OCR 엔진

  • 예시: Tesseract OCR, Windows OCR

  • 적합한 용도: 흰 배경에 검은 텍스트인 단순 텍스트

  • 제한 사항: 색상 텍스트나 복잡한 배경에서 어려움을 겪을 수 있음

  • 필요 사항: 정확도를 높이기 위한 전처리 조정

최신 OCR 엔진 ⭐⭐⭐

  • 예시: Fast OCR, EasyOCR

  • 적합한 용도: 적당한 배경 노이즈 및 다색 텍스트

  • 장점: 전처리 없이 다양한 텍스트 조건을 더 잘 처리함

  • 필요 사항: 최소한의 전처리 또는 전처리 불필요

AI 기반 OCR 엔진 ⭐⭐⭐⭐⭐

  • 예시: Google Cloud Vision, Azure Cloud Vision, Qwen 2.5 VL, GPT-4 Vision, Claude Vision

  • 적합한 용도: 복잡한 배경, 회전된 텍스트 및 색상 텍스트

  • 장점: 전처리 없이도 높은 정확도를 제공하며 다양한 텍스트 조건을 자동으로 처리함

  • 필요 사항: 전처리 불필요

OCR 엔진의 완전한 비교는 다음을 참조하십시오 OCR 엔진들.

4. 후처리

OCR 엔진이 텍스트를 처리한 후 결과가 표시됩니다. 인식이 부정확한 경우 정규식(RegExp)을 사용하여 후처리에서 결과를 수정할 수 있습니다.

후처리는 모든 유형의 OCR 엔진에 다음과 같이 유용합니다:

  • 원하지 않는 문자 제거

  • 일반적인 인식 오류 수정

  • 출력 텍스트 형식화


OCR 정확도를 향상시키기 위한 팁

전통적 OCR 엔진(Tesseract, Windows OCR)을 위한 팁

  1. 고품질 이미지 캡처 보장: 화면 캡처 품질이 좋을수록 OCR의 정확도가 높아집니다. 흐릿하거나 저해상도 이미지는 피하세요.

  2. 효과적인 전처리 사용: 이미지를 높은 대비(흰 배경에 검은 텍스트)로 조정하여 OCR 엔진이 텍스트를 더 쉽게 인식하도록 하세요.

  3. 적절한 임계값 설정 선택: 전처리 옵션에서 임계값 값을 실험하여 귀하의 게임에 가장 적합한 설정을 찾으세요.

최신 및 AI 기반 OCR 엔진의 경우

  1. 고품질 이미지 캡처 보장: 좋은 캡처 품질은 여전히 도움이 되지만, 이러한 엔진은 이미지 품질에 대해 더 관대합니다.

  2. 전처리 건너뛰기: 최신 및 AI 기반 OCR 엔진은 전처리 조정 없이 원본 이미지로 가장 잘 작동합니다.

  3. 필요에 맞는 엔진 선택:

    • 다음을 사용하세요 Fast OCR 오프라인에서 빠른 인식을 위해 중간 수준의 정확도를 제공

    • 다음을 사용하세요 클라우드 기반 엔진 복잡한 텍스트에서 최고 수준의 정확도를 위해

    • 다음을 사용하세요 LLM 기반 엔진 최대 유연성과 정확도를 위해

모든 OCR 엔진 유형에 대해

  1. 후처리 활용: 텍스트 인식이 올바르지 않거나 특정 문자를 제거하려는 경우 후처리에서 RegExp를 사용하여 출력을 정제하세요.

  2. 캡처 영역을 올바르게 위치시키기: 캡처 영역이 불필요한 요소를 포함하지 않도록 텍스트 대화 상자만 포함하도록 하세요.

  3. 다른 엔진 테스트: 여러 OCR 엔진을 시도하여 특정 게임이나 비주얼 노벨에 가장 잘 맞는 엔진을 찾아보세요.