Následné zpracování
Post-processing upravuje výstup OCR poté, co byl text rozpoznán. Tento krok pomáhá opravit běžné chyby OCR, odstranit nežádoucí znaky a správně naformátovat text před překladem.
Poznámka: Post-processing je užitečný pro všechny typy OCR enginů. I moderní a AI založené OCR enginy mohou generovat text, který potřebuje formátování nebo opravu.
Kdy použít post-processing
Použijte post-processing když:
OCR důsledně rozpoznává nesprávné znaky ("l" jako "|", "0" jako "O")
Potřebujete odstranit konkrétní znaky nebo symboly
Formátování textu potřebuje úpravu. (konce řádků, uvozovky)
Chcete standardizovat vzory znaků
Výstup OCR obsahuje nežádoucí znaky
Regular Expression (RegExp)
Regular Expressions (RegExp) jsou vzory používané k vyhledávání a manipulaci s textem. VNTranslator podporuje dva typy operací s RegExp:
1. RegExp matching
Identifikuje a extrahuje specifické vzory textu z výstupu OCR. Bude zachován pouze text, který odpovídá vzoru.
Případy použití:
Extrahovat pouze japonské znaky a ignorovat jiné symboly
Zachovat pouze znaky konkrétního jazyka
Odstranit vše kromě hlavního dialogového textu
Příklad:
Tento vzor odpovídá a extrahuje pouze japonské znaky (kanji, hiragana, katakana a japonské symboly).
Pro více podrobností viz Porovnávání pomocí RegExp.
2. RegExp replacement (Search & Replace)
Vyhledává specifické vzory textu a nahrazuje je jiným textem. Toto je nejčastěji používaná technika post-processingu.
Případy použití:
Opravit běžné chyby rozpoznání OCR
Nahradit nesprávné uvozovky správnými
Odstranit nežádoucí znaky nebo symboly
Normalizovat formátování textu
Opravit konce řádků a problémy s mezerami
Běžné příklady:
Nahradit uvozovky:
Odstranit hudební symboly:
Opravit elipsu:
Odstranit konce řádků:
Opravit běžné chyby OCR:
Pro více podrobností viz Nahrazení pomocí RegExp.