การประมวลผลหลัง

การทำหลังการประมวลผลจะปรับปรุงผลลัพธ์ของ OCR หลังจากที่ข้อความถูกจดจำ ขั้นตอนนี้ช่วยแก้ไขข้อผิดพลาดทั่วไปของ OCR ลบตัวอักษรที่ไม่ต้องการ และจัดรูปแบบข้อความให้ถูกต้องก่อนการแปล

หมายเหตุ: การทำหลังการประมวลผลมีประโยชน์สำหรับ ทุกประเภทของเอนจิน OCR. แม้แต่เอนจิน OCR สมัยใหม่และที่ใช้ AI อาจสร้างข้อความที่ต้องการการจัดรูปแบบหรือการแก้ไข

เมื่อใดที่ควรใช้การทำหลังการประมวลผล

ใช้การทำหลังการประมวลผลเมื่อ:

  • OCR จดจำตัวอักษรผิดอย่างสม่ำเสมอ ("l" เป็น "|", "0" เป็น "O")

  • คุณต้องการลบตัวอักษรหรือสัญลักษณ์เฉพาะ

  • ต้องปรับรูปแบบข้อความ (การขึ้นบรรทัดใหม่, เครื่องหมายคำพูด)

  • คุณต้องการทำให้รูปแบบของลำดับอักขระเป็นมาตรฐาน

  • ผลลัพธ์จาก OCR มีตัวอักษรที่ไม่ต้องการ

นิพจน์ปกติ (RegExp)

นิพจน์ปกติ (RegExp) เป็นรูปแบบที่ใช้ค้นหาและจัดการข้อความ VNTranslator รองรับการทำงาน RegExp สองประเภท:

1. การจับคู่ RegExp

ระบุและสกัดรูปแบบข้อความเฉพาะจากผลลัพธ์ OCR ข้อความที่จะถูกเก็บไว้จะต้องตรงกับรูปแบบเท่านั้น

กรณีการใช้งาน:

  • สกัดเฉพาะตัวอักษรภาษาญี่ปุ่นและละเว้นสัญลักษณ์อื่น ๆ

  • เก็บเฉพาะตัวอักษรของภาษาที่ต้องการ

  • ลบทุกอย่างยกเว้นข้อความสนทนาหลัก

ตัวอย่าง:

รูปแบบนี้จับคู่และสกัดเฉพาะตัวอักษรภาษาญี่ปุ่น (คันจิ ฮิรางานะ คาตาคานะ และสัญลักษณ์ภาษาญี่ปุ่น)

สำหรับรายละเอียดเพิ่มเติม ดู การจับคู่ RegExp.

2. การแทนที่ด้วย RegExp (ค้นหา & แทนที่)

ค้นหารูปแบบข้อความเฉพาะและแทนที่ด้วยข้อความอื่น นี่เป็นเทคนิคการทำหลังการประมวลผลที่ใช้บ่อยที่สุด

กรณีการใช้งาน:

  • แก้ไขข้อผิดพลาดการจดจำ OCR ที่พบบ่อย

  • แทนที่เครื่องหมายคำพูดที่ผิดด้วยเครื่องหมายที่ถูกต้อง

  • ลบตัวอักษรหรือสัญลักษณ์ที่ไม่ต้องการ

  • ทำให้รูปแบบข้อความเป็นปกติ

  • แก้ไขการขึ้นบรรทัดใหม่และปัญหาช่องว่าง

ตัวอย่างทั่วไป:

แทนที่เครื่องหมายคำพูด:

ลบสัญลักษณ์ดนตรี:

แก้ไขการเว้นจุดต่อเนื่อง:

ลบการขึ้นบรรทัดใหม่:

แก้ไขข้อผิดพลาด OCR ที่พบบ่อย:

สำหรับรายละเอียดเพิ่มเติม ดู การแทนที่ RegExp.