2

استخراج نص من ملف PDF على أوبنتو وفيدورا

السّلام عليكم ورحمة اللّه

الملفّات بصيغة PDF من الأكثر انتشارا حيثُ تأتي بها الكثير من الوثائق والمُستندات. في بعض الأحيان قد تودّ استخراج نص من ملف PDF للعمل عليه أو استخدامه في أمور أخرى.

الهدف من هذه التّدوينة هو تقديم طريقة بسيطة تمكّن من استخراج نص من ملف PDF على توزيعتي أوبنتو وفيدورا عبر حزمة poppler-utils التي توفر العديد من الأدوات للتّعامل مع ملفّات بي دي أف تعمل عبر سطر الأوامر (لا داعي للخوف من الطّرفيّة 🙂 ). تعتمد مجموعة أدوات poppler-utils في عملها على مكتبة Poppler لتصيير Rendering PDF (تقديم وعرض ملفّات PDF) المستخدمة في قارئي الملفات xpdf و evince.

تثبيت حزمة poppler-utils

أقدّم هنا طريقة تثبيت حزمة الأدوات poppler-utils. بالنّسبة لتوزيعات لينكس الأخرى ابحث في مدير الحزم لديك.

على أوبنتو تأتي حزمة poppler-utils بشكل افتراضي مع النّظام. في حالة لم تكن كذلك تستطيع تثبيت حزمة الأدوات عبر الأمر

sudo apt-get install poppler-utils

للتّثبيت على فيدورا ننُفّذ الأمر التّالي

sudo yum install poppler-utils

بعد التّثبيت تأتي طريقة العمل.

استخراج نص من ملف PDF

طريقة العمل بسيطة وهي على النّحو التّالي:

pdftotext file.pdf file.txt

حيثُ

  • file.pdf ملف PDf الذي نود استخراج النّص منه.
  • file.txt ملف نصي نريد أن يحوي النّص المستخرج.

بعض الخيّارات المتوفرة مع الأمر pdftotext:

  • f-

لتحديد رقم الصّفحة حيث ستبدأ عملية الاستخراج. عند عدم تحديد هذا الخيّار فإن عمليّة الاستخراج تبدأ من أول الملف.

  • l-

لتحديد رقم الصّفحة حيث ستنتهي عملية الاستخراج. عند عدم تحديد هذا الخيّار فإن عمليّة الاستخراج تستمر حتى مُنتهى الملف.

  • r-

لتحديد عدد النّقاط لكل بوصة في الملف المُدخَل. العدد المُستخدم بشكل افتراضي هو 72.

أمثلة

استخراج النّص الموجود في أوّل عشر صفحات

pdftotext -l 10 file1.pdf file1.txt

استخراج النّص الموجود في آخر عشر صفحات (على افتراض أنّ الملف يحوي 76 صفحة)

pdftotext -f 66 file1.pdf file2.txt

استخراج النّص الموجود بين الصّفحة 20 والصّفحة 30 (الصّفحتان 20 و30 تدخلان في العمليّة)

pdftotext -f 20 -l 30 file1.pdf file2.txt

لمزيد من الخيارات عليكم بالأمر:

man pdftotext

إلى اللّقاء.

للحصول على آخر الإضافات مباشرة بعد نشرها يُرجى الاشتراك في تغذيات RSS.

أو على تطبيق فيدلي عبر الضغط على الزر أدناه

تابعنا على تطبيق فيدلي

رابط خلاصات RSS

 

مصادر

http://www.webupd8.org/2012/06/pdf-data-extraction-in-linux.html
http://doc.ubuntu-fr.org/poppler-utils

فضلًا.. شارك هذا المقال 🙂

Email this to someoneTweet about this on TwitterShare on FacebookShare on Google+Share on StumbleUpon

zeine77

محمد أحمد ولد العيل، مهندس نظم معلومات. مهتم بنظام تشغيل غنو/لينوكس والبرمجيات الحرّة والمفتوحة المصدر. أسعى من خلال هذه المدوّنة لإثراء المحتوى العربي على الشّبكة.

2 Comments

  1. نظام الاساسي ويندويز ومحمله الفيرتشول بوكس وحاطه فيدورا جواته
    هل الطريقه ذي تنفع لو كان ملف pdf ع الويندويز ؟؟؟؟

    • يمكنك اتّباع الطّريقة على فيدورا المثبّت في النّظام الوهميّ.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *