قم بإنشاء وتحويل PDF إلى Docx عبر مكتبة Python مفتوحة المصدر
واجهة برمجة تطبيقات Python المجانية قادرة على إنشاء وتحويل مستندات PDF إلى DOCX ، وتحليل وإعادة إنشاء تخطيط الصفحة أو إعادة إنشاء فقرة عبر مكتبة Python.
هناك العديد من مكتبات Python لإنشاء مستندات PDF ومعالجتها. تعتبر AS Python هي أفضل لغة للتعامل مع معالجة PDF لأنها تجعل التطوير سهلاً وسريعًا. تعد pdf2docx واحدة من مكتبات Python القوية مفتوحة المصدر التي تمكن مبرمجي الكمبيوتر من إنشاء وتحويل مستندات PDF إلى تنسيق ملف Word DOCX بسهولة. المكتبة سهلة الاستخدام للغاية وتحتوي على واجهة مستخدم رسومية بسيطة تمكن المستخدمين من الوصول بسهولة إلى ميزات المكتبة المتنوعة واستخدامها.
تضمنت مكتبة pdf2docx العديد من الميزات للتعامل مع عمليات PDF مثل الوصول إلى مستندات PDF وتحويل PDF إلى تنسيقات ملفات أخرى وتحليل وإعادة إنشاء تخطيط الصفحة ودعم هامش الصفحة واستخراج المعلومات الوصفية واستخراج النص من ملفات PDF والتحليل وإعادة - إنشاء فقرة ، وإدراج نص في PDF ، ودعم أنماط القائمة ، وتحليل الصورة وإعادة إنشائها ، والصورة الشفافة ، وتحليل وإعادة إنشاء الجدول ، والخلايا المدمجة ، والجدول مع حدود مخفية جزئيًا ، ودعم الجداول المتداخلة ، وتحليل الصفحات ذات - المعالجة وغيرها الكثير.
الشروع في العمل مع pdf2docx
يعد تثبيت pdf2docx سهلًا جدًا ، والطريقة المفضلة للقيام بذلك هي استخدام النقطة ، يرجى استخدام الأمر التالي لأي تثبيت سهل.
قم بتثبيت pdf2docx عبر النقطة
pip install pdf2docx
من الممكن أيضًا تثبيته يدويًا ؛ قم بتنزيل أحدث ملفات الإصدار مباشرة من مستودع GitHub .
تحويل ملف PDF إلى Docx عبر Python API
تدعم مكتبة pdf2docx مفتوحة المصدر بشكل كامل تحويل ملف PDF إلى تنسيق ملف Docx ببضع سطرين من كود Python. قدمت المكتبة عدة طرق للتعامل مع تحويل PDF. يمكنك تحويل جميع صفحات المستند أو تحديد بعض الصفحات المحددة وتحويلها إلى ملف Docx. تدعم المكتبة أيضًا الوصول إلى مستندات PDF المحمية بكلمة مرور وتحويلها داخل تطبيقات Python. تدعم المكتبة أيضًا المعالجة المتعددة التي تعمل فقط لصفحات PDF المستمرة ، المحددة بالبداية والنهاية فقط.
قم بتحويل جميع صفحات PDF عبر Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
تحويل صفحات PDF المحددة إلى Docx عبر Python
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
استخراج الجدول من PDF عبر Python API
نحتاج أحيانًا إلى استخراج بعض البيانات المحددة من ملف PDF. تتيح مكتبة pdf2docx المجانية للمستخدمين استخراج الجداول من ملفات PDF دون أي تبعيات خارجية. لتحقيق هذه المهمة ، تحتاج إلى استخدام وظيفة extract_tables (). يمكن استخدام الأمثلة التالية لاستخراج كل الجداول من ملف PDF.
استخراج جدول PDF عبر Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
print(table)
استخراج جميع الجداول من PDF عبر Python API
extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
print(obj)