Následné zpracování

Post-processing upravuje výstup OCR poté, co byl text rozpoznán. Tento krok pomáhá opravit běžné chyby OCR, odstranit nežádoucí znaky a správně naformátovat text před překladem.

Poznámka: Post-processing je užitečný pro všechny typy OCR enginů. I moderní a AI založené OCR enginy mohou generovat text, který potřebuje formátování nebo opravu.

Kdy použít post-processing

Použijte post-processing když:

  • OCR důsledně rozpoznává nesprávné znaky ("l" jako "|", "0" jako "O")

  • Potřebujete odstranit konkrétní znaky nebo symboly

  • Formátování textu potřebuje úpravu. (konce řádků, uvozovky)

  • Chcete standardizovat vzory znaků

  • Výstup OCR obsahuje nežádoucí znaky

Regular Expression (RegExp)

Regular Expressions (RegExp) jsou vzory používané k vyhledávání a manipulaci s textem. VNTranslator podporuje dva typy operací s RegExp:

1. RegExp matching

Identifikuje a extrahuje specifické vzory textu z výstupu OCR. Bude zachován pouze text, který odpovídá vzoru.

Případy použití:

  • Extrahovat pouze japonské znaky a ignorovat jiné symboly

  • Zachovat pouze znaky konkrétního jazyka

  • Odstranit vše kromě hlavního dialogového textu

Příklad:

Tento vzor odpovídá a extrahuje pouze japonské znaky (kanji, hiragana, katakana a japonské symboly).

Pro více podrobností viz Porovnávání pomocí RegExp.

2. RegExp replacement (Search & Replace)

Vyhledává specifické vzory textu a nahrazuje je jiným textem. Toto je nejčastěji používaná technika post-processingu.

Případy použití:

  • Opravit běžné chyby rozpoznání OCR

  • Nahradit nesprávné uvozovky správnými

  • Odstranit nežádoucí znaky nebo symboly

  • Normalizovat formátování textu

  • Opravit konce řádků a problémy s mezerami

Běžné příklady:

Nahradit uvozovky:

Odstranit hudební symboly:

Opravit elipsu:

Odstranit konce řádků:

Opravit běžné chyby OCR:

Pro více podrobností viz Nahrazení pomocí RegExp.