Porozumění OCR a zlepšení přesnosti

Tento průvodce vysvětluje, jak OCR funguje ve VNTranslatoru a poskytuje praktické tipy ke zlepšení přesnosti rozpoznávání textu.

Poznámka: Tento průvodce se primárně zaměřuje na tradiční OCR inženky (Tesseract OCR a Windows OCR). Pokud používáte moderní OCR enginy jako Fast OCR, enginy založené na LLM (Qwen 2.5 VL, GPT-4 Vision, Claude Vision) nebo cloudové enginy (Google Cloud Vision, Azure Cloud Vision), můžete přeskočit většinu předzpracovacích úprav, protože tyto enginy automaticky zvládají složitá pozadí a barevný text.

Jak OCR funguje ve VNTranslatoru

1. Snímání obrazovky

Prvním krokem v procesu OCR je pořízení snímku obrazovky. Kvalita zachyceného snímku výrazně ovlivňuje schopnost OCR enginu přesně rozpoznat text.

2. Předzpracování (zpracování obrazu)

Pouze pro tradiční OCR enginy.

Předzpracování je primárně potřeba při použití Tesseract OCR nebo Windows OCR. Moderní OCR enginy jako Fast OCR, enginy založené na LLM, a enginy v cloudu mohou zvládat různé podmínky textu bez předzpracovacích úprav.

Během předzpracování je obraz upraven tak, aby zobrazoval černý text na bílém pozadí. Tento kontrast usnadňuje tradičním OCR enginům rozpoznávání textu.

Kdy použít předzpracování:

  • Používáte Tesseract OCR nebo Windows OCR

  • Text ve hře má barevná pozadí

  • Nízký kontrast mezi textem a pozadím

  • Potřeba zlepšit přesnost rozpoznávání u tradičních enginů

Kdy předzpracování NENÍ potřeba:

  • Používáte Fast OCR nebo moderní OCR enginy

  • Používáte enginy založené na LLM (Qwen 2.5 VL, GPT-4 Vision, Claude Vision)

  • Používáte cloudové enginy (Google Cloud Vision, Azure Cloud Vision)

3. Výběr OCR enginu

Přesnost rozpoznávání textu závisí silně na vybraném OCR enginu. VNTranslator podporuje tři kategorie OCR enginů:

Tradiční OCR enginy

  • Příklady: Tesseract OCR, Windows OCR

  • Nejvhodnější pro: Jednoduchý text s černým textem na bílém pozadí

  • Omezení: Může mít potíže s barevným textem nebo složitými pozadími

  • Vyžaduje: Předzpracovací úpravy pro lepší přesnost

Moderní OCR enginy ⭐⭐⭐

  • Příklady: Fast OCR, EasyOCR

  • Nejvhodnější pro: Střední šum na pozadí a vícebarevný text

  • Výhody: Lepší zvládnutí různých podmínek textu bez předzpracování

  • Vyžaduje: Minimální až žádné předzpracování

AI-based OCR Engines ⭐⭐⭐⭐⭐

  • Příklady: Google Cloud Vision, Azure Cloud Vision, Qwen 2.5 VL, GPT-4 Vision, Claude Vision

  • Nejvhodnější pro: Složité pozadí, otočený text a barevný text

  • Výhody: Vysoká přesnost bez předzpracování, automaticky zvládá různé podmínky textu

  • Vyžaduje: Předzpracování není potřeba

Pro úplné srovnání OCR enginů viz OCR Enginy.

4. Post-processing

Poté, co OCR engine zpracuje text, bude výsledek zobrazen. Pokud je rozpoznání nepřesné, můžete během post-processingu provést opravy pomocí regulárních výrazů (RegExp) k upřesnění výsledků.

Post-processing je užitečný pro všechny typy OCR enginů k:

  • Odstranění nežádoucích znaků

  • Opravení běžných chyb rozpoznávání

  • Formátování výstupního textu


Tipy pro zlepšení přesnosti OCR

Pro tradiční OCR enginy (Tesseract, Windows OCR)

  1. Zajistěte kvalitní snímky: Čím lepší je kvalita snímku obrazovky, tím vyšší je přesnost OCR. Vyvarujte se rozmazaných nebo nízkého rozlišení snímků.

  2. Použijte účinné předzpracování: Upravte obraz tak, aby měl vysoký kontrast (černý text na bílém pozadí), což usnadní OCR enginu rozpoznávání textu.

  3. Vyberte vhodná nastavení prahování: Experimentujte s hodnotami prahu v možnostech předzpracování, abyste našli nejlepší nastavení pro vaši hru.

Pro moderní a AI-based OCR enginy

  1. Zajistěte kvalitní snímky: Dobrá kvalita snímku stále pomáhá, ale tyto enginy jsou tolerantnější ke kvalitě obrazu.

  2. Přeskočte předzpracování: Moderní a AI-based OCR enginy pracují nejlépe s původním obrazem bez předzpracovacích úprav.

  3. Vyberte správný engine pro vaše potřeby:

    • Použijte Fast OCR pro offline, rychlé rozpoznávání se střední přesností

    • Použijte enginy v cloudu pro nejvyšší přesnost u složitého textu

    • Použijte enginy založené na LLM pro maximální flexibilitu a přesnost

Pro všechny typy OCR enginů

  1. Využívejte post-processing: Pokud je rozpoznání textu nesprávné nebo chcete odstranit konkrétní znaky, použijte během post-processingu RegExp k upřesnění výstupu.

  2. Umístěte oblast snímání správně: Ujistěte se, že oblast snímání pokrývá pouze dialogové okno textu, aby se zabránilo zachycení zbytečných prvků.

  3. Testujte různé enginy: Vyzkoušejte různé OCR enginy, abyste našli ten, který nejlépe funguje pro vaši konkrétní hru nebo vizuální novelu.