1. محصولات
  2.   PDF
  3.   Python
  4.   pdf2docx
 
  

ایجاد و تبدیل PDF به Docx از طریق کتابخانه Python منبع باز

API رایگان Python قادر به ایجاد و تبدیل اسناد PDF به DOCX، تجزیه و بازآفرینی طرح‌بندی صفحه یا ایجاد مجدد پاراگراف از طریق کتابخانه پایتون است.

کتابخانه های پایتون زیادی برای ایجاد و پردازش اسناد PDF وجود دارد. AS Python به عنوان بهترین زبان برای پردازش PDF در نظر گرفته می شود زیرا توسعه را بسیار آسان و سریع می کند. pdf2docx یکی از کتابخانه‌های قدرتمند منبع باز پایتون است که برنامه‌نویسان رایانه را قادر می‌سازد اسناد PDF را به آسانی به فرمت فایل Word DOCX ایجاد و تبدیل کنند. مدیریت این کتابخانه بسیار ساده است و دارای رابط کاربری گرافیکی ساده ای است که کاربران را قادر می سازد تا به راحتی به ویژگی های مختلف کتابخانه دسترسی داشته باشند و از آنها استفاده کنند.

کتابخانه pdf2docx دارای ویژگی‌های مختلفی برای مدیریت عملیات PDF مانند دسترسی به اسناد PDF، تبدیل PDF به فرمت‌های دیگر فایل، تجزیه و ایجاد مجدد طرح‌بندی صفحه، پشتیبانی از حاشیه صفحه، استخراج متا اطلاعات، استخراج متن از فایل‌های PDF، تجزیه و دوباره است. -ایجاد پاراگراف، درج متن در PDF، پشتیبانی از سبک های لیست، تجزیه و ایجاد مجدد تصویر، تصویر شفاف، تجزیه و ایجاد مجدد جدول، سلول های ادغام شده، جدول با حاشیه های نیمه پنهان، پشتیبانی از جداول تو در تو، تجزیه صفحات با چند- پردازش، و بسیاری دیگر.

Previous Next

شروع کار با pdf2docx

نصب pdf2docx بسیار آسان است، روش ترجیحی برای انجام این کار استفاده از pip است، لطفاً برای نصب آسان از دستور زیر استفاده کنید.

pdf2docx را از طریق pip نصب کنید

 pip install pdf2docx 

همچنین امکان نصب آن به صورت دستی وجود دارد. آخرین فایل های نسخه را مستقیماً از مخزن GitHub دانلود کنید.

تبدیل فایل PDF به Docx از طریق Python API

کتابخانه منبع باز pdf2docx به طور کامل از تبدیل فایل PDF به فرمت فایل Docx تنها با چند خط کد پایتون پشتیبانی می کند. این کتابخانه چندین روش برای مدیریت تبدیل PDF ارائه کرده است. شما می توانید تمام صفحات یک سند را تبدیل کنید یا برخی از صفحات خاص را انتخاب کنید و آنها را به یک فایل Docx تبدیل کنید. این کتابخانه همچنین از دسترسی و تبدیل اسناد PDF محافظت شده با رمز عبور در برنامه های پایتون پشتیبانی می کند. این کتابخانه همچنین از پردازش چندگانه پشتیبانی می‌کند که فقط برای صفحات پی‌دی‌اف پیوسته، که فقط با شروع و پایان مشخص شده‌اند، کار می‌کند.

تمام صفحات یک PDF را از طریق Python API تبدیل کنید

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

صفحات PDF مشخص شده را از طریق پایتون به Docx تبدیل کنید

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

استخراج جدول از PDF از طریق Python API

گاهی اوقات ما نیاز به استخراج برخی از داده های خاص از یک فایل PDF داریم. کتابخانه رایگان pdf2docx به کاربران اجازه می دهد تا جداول را از فایل های PDF بدون هیچ گونه وابستگی خارجی استخراج کنند. برای رسیدن به این کار باید از تابع extract_tables() استفاده کنید. از مثال های زیر می توان برای استخراج تمام جداول از یک فایل PDF استفاده کرد.

استخراج جدول PDF از طریق Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
    print(table)

استخراج همه جداول از PDF از طریق Python API

extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
    print(obj)
 فارسی