PDFLabz PDFLabz
5 min read By Administrator

كيفية استخراج النص من PDF ممسوح باستخدام OCR

حوّل ملفات PDF الممسوحة والوثائق المصوّرة إلى نص قابل للبحث والنسخ باستخدام تقنية OCR من المتصفح.

#ocr #pdf #scan #text-extraction

ما هو OCR؟

الـOCR (التعرف الضوئي على الحروف) يقرأ البكسلات ويحوّلها إلى نص حقيقي. هذا ما يجعل كتابًا ممسوحًا قابلاً للبحث، أو يسمح لك بنسخ فقرة من صورة لافتة.

متى تحتاجه؟

  • عقود قديمة ممسوحة لا يجد فيها Ctrl+F شيئًا.
  • صور فواتير تريد تسجيلها في جدول بيانات.
  • ملفات PDF صورية تريد تحويلها إلى Word.

كيفية تشغيل OCR

  1. افتح OCR.
  2. ارفع ملف الـPDF الممسوح أو الصورة.
  3. اختر لغة المستند (العربية، الإنجليزية، الفرنسية، الإسبانية، إلخ).
  4. انقر تشغيل OCR — انتظر بضع ثوانٍ لكل صفحة.
  5. انسخ النص أو نزّله كملف .txt.

نصائح للجودة

  • المسح بدقة عالية (300 DPI أو أكثر) يعطي نتائج أفضل بكثير.
  • تجنّب صور الصور — امسح الأصل كلما أمكن.
  • بالنسبة للعربية، تأكد أن الصفحة ليست مائلة؛ فالـOCR أقل تسامحًا مع الكتابة من اليمين إلى اليسار.