Následné zpracování

Post-processing upravuje výstup OCR poté, co byl text rozpoznán. Tento krok pomáhá opravit běžné chyby OCR, odstranit nežádoucí znaky a správně naformátovat text před překladem.

Poznámka: Post-processing je užitečný pro všechny typy OCR enginů. I moderní a AI založené OCR enginy mohou generovat text, který potřebuje formátování nebo opravu.

Kdy použít post-processing

Použijte post-processing když:

OCR důsledně rozpoznává nesprávné znaky ("l" jako "|", "0" jako "O")
Potřebujete odstranit konkrétní znaky nebo symboly
Formátování textu potřebuje úpravu. (konce řádků, uvozovky)
Chcete standardizovat vzory znaků
Výstup OCR obsahuje nežádoucí znaky

Regular Expression (RegExp)

Regular Expressions (RegExp) jsou vzory používané k vyhledávání a manipulaci s textem. VNTranslator podporuje dva typy operací s RegExp:

1. RegExp matching

Identifikuje a extrahuje specifické vzory textu z výstupu OCR. Bude zachován pouze text, který odpovídá vzoru.

Případy použití:

Extrahovat pouze japonské znaky a ignorovat jiné symboly
Zachovat pouze znaky konkrétního jazyka
Odstranit vše kromě hlavního dialogového textu

Příklad:

Tento vzor odpovídá a extrahuje pouze japonské znaky (kanji, hiragana, katakana a japonské symboly).

["[一-龠]+|[ぁ-ゔ]+|[ァ-ヴー]+|[々〆〤]+|[⺀-⿕]+|[、-〿]+|[ㇰ-ㇿ㈠-㉃㊀-㍿]+", "gmu"]

Pro více podrobností viz Porovnávání pomocí RegExp.

2. RegExp replacement (Search & Replace)

Vyhledává specifické vzory textu a nahrazuje je jiným textem. Toto je nejčastěji používaná technika post-processingu.

Případy použití:

Opravit běžné chyby rozpoznání OCR
Nahradit nesprávné uvozovky správnými
Odstranit nežádoucí znaky nebo symboly
Normalizovat formátování textu
Opravit konce řádků a problémy s mezerami

Běžné příklady:

Nahradit uvozovky:

["『", "g", "「"]
["』", "g", "」"]

Odstranit hudební symboly:

["♪", "g", ""]

Opravit elipsu:

["。。。", "g", "..."]

Odstranit konce řádků:

["(\\r\\n|\\n|\\r)", "gm", " "]

Opravit běžné chyby OCR:

["\\\\|", "g", "I"]

Pro více podrobností viz Nahrazení pomocí RegExp.

PreviousPředzpracování NextPorozumění OCR a zlepšení přesnosti

hashtagKdy použít post-processing

hashtagRegular Expression (RegExp)

hashtag1. RegExp matching

hashtag2. RegExp replacement (Search & Replace)

Kdy použít post-processing

Regular Expression (RegExp)

1. RegExp matching

2. RegExp replacement (Search & Replace)