كيفية استخراج النص من PDF ممسوح باستخدام OCR

حوّل ملفات PDF الممسوحة والوثائق المصوّرة إلى نص قابل للبحث والنسخ باستخدام تقنية OCR من المتصفح.

#ocr #pdf #scan #text-extraction

ما هو OCR؟

الـOCR (التعرف الضوئي على الحروف) يقرأ البكسلات ويحوّلها إلى نص حقيقي. هذا ما يجعل كتابًا ممسوحًا قابلاً للبحث، أو يسمح لك بنسخ فقرة من صورة لافتة.

المسح بدقة عالية (300 DPI أو أكثر) يعطي نتائج أفضل بكثير.
تجنّب صور الصور — امسح الأصل كلما أمكن.
بالنسبة للعربية، تأكد أن الصفحة ليست مائلة؛ فالـOCR أقل تسامحًا مع الكتابة من اليمين إلى اليسار.