การประมวลผลหลัง
การทำหลังการประมวลผลจะปรับปรุงผลลัพธ์ของ OCR หลังจากที่ข้อความถูกจดจำ ขั้นตอนนี้ช่วยแก้ไขข้อผิดพลาดทั่วไปของ OCR ลบตัวอักษรที่ไม่ต้องการ และจัดรูปแบบข้อความให้ถูกต้องก่อนการแปล
หมายเหตุ: การทำหลังการประมวลผลมีประโยชน์สำหรับ ทุกประเภทของเอนจิน OCR. แม้แต่เอนจิน OCR สมัยใหม่และที่ใช้ AI อาจสร้างข้อความที่ต้องการการจัดรูปแบบหรือการแก้ไข
เมื่อใดที่ควรใช้การทำหลังการประมวลผล
ใช้การทำหลังการประมวลผลเมื่อ:
OCR จดจำตัวอักษรผิดอย่างสม่ำเสมอ ("l" เป็น "|", "0" เป็น "O")
คุณต้องการลบตัวอักษรหรือสัญลักษณ์เฉพาะ
ต้องปรับรูปแบบข้อความ (การขึ้นบรรทัดใหม่, เครื่องหมายคำพูด)
คุณต้องการทำให้รูปแบบของลำดับอักขระเป็นมาตรฐาน
ผลลัพธ์จาก OCR มีตัวอักษรที่ไม่ต้องการ
นิพจน์ปกติ (RegExp)
นิพจน์ปกติ (RegExp) เป็นรูปแบบที่ใช้ค้นหาและจัดการข้อความ VNTranslator รองรับการทำงาน RegExp สองประเภท:
1. การจับคู่ RegExp
ระบุและสกัดรูปแบบข้อความเฉพาะจากผลลัพธ์ OCR ข้อความที่จะถูกเก็บไว้จะต้องตรงกับรูปแบบเท่านั้น
กรณีการใช้งาน:
สกัดเฉพาะตัวอักษรภาษาญี่ปุ่นและละเว้นสัญลักษณ์อื่น ๆ
เก็บเฉพาะตัวอักษรของภาษาที่ต้องการ
ลบทุกอย่างยกเว้นข้อความสนทนาหลัก
ตัวอย่าง:
รูปแบบนี้จับคู่และสกัดเฉพาะตัวอักษรภาษาญี่ปุ่น (คันจิ ฮิรางานะ คาตาคานะ และสัญลักษณ์ภาษาญี่ปุ่น)
สำหรับรายละเอียดเพิ่มเติม ดู การจับคู่ RegExp.
2. การแทนที่ด้วย RegExp (ค้นหา & แทนที่)
ค้นหารูปแบบข้อความเฉพาะและแทนที่ด้วยข้อความอื่น นี่เป็นเทคนิคการทำหลังการประมวลผลที่ใช้บ่อยที่สุด
กรณีการใช้งาน:
แก้ไขข้อผิดพลาดการจดจำ OCR ที่พบบ่อย
แทนที่เครื่องหมายคำพูดที่ผิดด้วยเครื่องหมายที่ถูกต้อง
ลบตัวอักษรหรือสัญลักษณ์ที่ไม่ต้องการ
ทำให้รูปแบบข้อความเป็นปกติ
แก้ไขการขึ้นบรรทัดใหม่และปัญหาช่องว่าง
ตัวอย่างทั่วไป:
แทนที่เครื่องหมายคำพูด:
ลบสัญลักษณ์ดนตรี:
แก้ไขการเว้นจุดต่อเนื่อง:
ลบการขึ้นบรรทัดใหม่:
แก้ไขข้อผิดพลาด OCR ที่พบบ่อย:
สำหรับรายละเอียดเพิ่มเติม ดู การแทนที่ RegExp.