المعالجة اللاحقة

المعالجة اللاحقة تُنقح مخرجات التعرف الضوئي على الحروف بعد أن يتم التعرف على النص. تساعد هذه الخطوة على تصحيح أخطاء التعرف الشائعة، وإزالة الأحرف غير المرغوب فيها، وتنسيق النص بشكل صحيح قبل الترجمة.

ملاحظة: المعالجة اللاحقة مفيدة لـ جميع أنواع محركات التعرف الضوئي على الحروف. حتى محركات التعرف الحديثة والمعتمدة على الذكاء الاصطناعي قد تنتج نصًا يحتاج إلى تنسيق أو تصحيح.

متى تستخدم المعالجة اللاحقة

استخدم المعالجة اللاحقة عندما:

  • يقوم التعرف الضوئي على الحروف بالتعرف على أحرف خاطئة باستمرار ("l" كـ "|"، "0" كـ "O")

  • تحتاج إلى إزالة أحرف أو رموز معينة

  • يحتاج تنسيق النص إلى تعديل. (فواصل الأسطر، علامات الاقتباس)

  • تريد توحيد أنماط الأحرف

  • مخرجات التعرف الضوئي على الحروف تحتوي على أحرف غير مرغوب فيها

التعبير النمطي (RegExp)

التعبيرات النمطية (RegExp) هي أنماط تُستخدم للبحث في النص ومعالجته. يدعم VNTranslator نوعين من عمليات RegExp:

1. مطابقة RegExp

تحدد وتستخرج أنماط نصية محددة من مخرجات التعرف الضوئي على الحروف. سيتم الاحتفاظ فقط بالنص الذي يطابق النمط.

حالات الاستخدام:

  • استخراج الأحرف اليابانية فقط وتجاهل الرموز الأخرى

  • الاحتفاظ بأحرف لغة معينة فقط

  • إزالة كل شيء باستثناء نص الحوار الرئيسي

مثال:

يتطابق هذا النمط ويستخرج الأحرف اليابانية فقط (الكانجي، الهيراغانا، الكاتاكانا، والرموز اليابانية).

لمزيد من التفاصيل، راجع مطابقة التعابير النمطية.

2. استبدال RegExp (بحث واستبدال)

يبحث عن أنماط نصية محددة ويستبدلها بنصوص أخرى. هذه هي التقنية الأكثر شيوعًا في المعالجة اللاحقة.

حالات الاستخدام:

  • تصحيح أخطاء التعرف الضوئي الشائعة

  • استبدال علامات الاقتباس الخاطئة بالعلامات الصحيحة

  • إزالة الأحرف أو الرموز غير المرغوب فيها

  • تطبيع تنسيق النص

  • إصلاح فواصل الأسطر ومشكلات التباعد

أمثلة شائعة:

استبدال علامات الاقتباس:

إزالة رموز الموسيقى:

تصحيح الحذف الثلاثي للنقاط:

إزالة فواصل الأسطر:

إصلاح أخطاء التعرف الشائعة:

لمزيد من التفاصيل، راجع استبدال التعابير النمطية.