کتابخانه منبع باز Python برای تبدیل PDF به Word DOCX

کتابخانه پیشرو رایگان Python برای تبدیل اسناد PDF به فایل‌های قابل ویرایش MS Word DOCX. این کتابخانه چیدمان را حفظ می‌کند و شامل متن، تصاویر، جداول و سایر عناصر قالب‌بندی می‌شود از طریق API Python

کتابخانه PDF2Docx چیست؟

نیاز به تبدیل اسناد PDF به فایل‌های Word قابل ویرایش یک نیاز رایج در توسعه نرم‌افزار است، چه برای ساخت ابزارهای بهره‌وری، سیستم‌های مدیریت سند یا جریان‌های کاری خودکار. کتابخانه منبع باز PDF2Docx که توسط Artifex Software توسعه یافته است، راه‌حل قوی و کارآمدی برای مقابله با این چالش ارائه می‌دهد. این کتابخانه فرآیند تبدیل فایل‌های PDF به اسناد Word را در حالی که قالب‌بندی را حفظ می‌کند، ساده می‌کند و منبعی عالی برای توسعه‌دهندگان است. به‌عنوان یک کتابخانه Python، از سادگی و اکوسیستم گسترده Python بهره می‌برد و برای توسعه‌دهندگانی که با این زبان آشنا هستند قابل دسترس است. این کتابخانه می‌تواند در فریم‌ورک‌های مختلف Python مانند Flask یا Django تعبیه شود تا عملکرد تبدیل PDF به Word را به برنامه‌های وب اضافه کند.

PDF2Docx بر حفظ چیدمان اصلی سند PDF متمرکز است و اطمینان می‌دهد فایل‌های Word تبدیل‌شده طراحی، ترازبندی متن و گرافیک‌های تعبیه‌شده را حفظ کنند. این کتابخانه از محدوده‌ای از صفحات برای تبدیل، خودکارسازی تبدیل چندین فایل PDF به صورت دسته‌ای و غیره پشتیبانی می‌کند. توسعه‌دهندگان می‌توانند فرآیند تبدیل را کنترل کنند، مانند مشخص کردن صفحات برای تبدیل، تنظیمات تصویر، مشخص کردن سبک‌های قلم و نگاشت برای رندر بهتر متن یا کار با قلم‌های تعبیه‌شده. لطفاً توجه داشته باشید که برخی محدودیت‌ها برای این کتابخانه وجود دارد؛ به‌عنوان مثال، ممکن است کتابخانه نتواند به‌طور کامل چیدمان‌های پیچیده PDF یا فایل‌های PDF به‌ شدت قالب‌بندی‌شده را مدیریت کند. در مجموع، کتابخانه PDF2Docx ابزاری ارزشمند برای هر کسی است که نیاز به تبدیل اسناد PDF به فایل‌های DOCX قابل ویرایش دارد. این کتابخانه استفاده آسانی دارد و مجموعه‌ای خوب از ویژگی‌ها را ارائه می‌دهد.

در یک نگاه

مروری بر ویژگی‌های PDF2Docx.

Features Overview

تبدیل PDF به DOCX
ایجاد DOCX از PDF
افزودن پاراگراف‌ها
افزودن جدول به DOCX
درج تصویر در DOCX
قالب‌بندی متن
افزودن عنوان
پشتیبانی از شکست صفحه
تنظیم رنگ‌ها
ترازبندی متن
پشتیبانی از نشانک‌ها

PDF2Docx

PDF2Docx از فرمت‌های فشرده‌سازی محبوب زیر پشتیبانی می‌کند.

Reader

DOCX

Writer

TXT,DOCX

PDF2Docx

استقلال پلتفرم

PDF2Docx تنها به Python 2.6 یا بالاتر نیاز دارد

Python 2.6 و بالاتر.

PDF2Docx

شروع کار با PDF2Docx

PDF2Docx در PyPI میزبانی می‌شود، بنابراین نصب آن بسیار ساده است. می‌توانید با pip و استفاده از فرمان زیر آن را نصب کنید.

نصب PDF2Docx از طریق NPM

 pip install pdf2docx

همچنین می‌توان از طریق easy_install نصب کرد، اما توصیه نمی‌شود.

تبدیل PDF به Word DOCX از طریق API Python

کتابخانه منبع باز PDF2Docx عملکرد کامل برای بارگذاری و تبدیل اسناد Microsoft Word DOCX به فایل PDF درون برنامه‌های Python ارائه داده است. این کتابخانه فرآیند تبدیل اسناد PDF به فرمت DOCX را در حالی که ساختار، متن، تصاویر و چیدمان سند اصلی را حفظ می‌کند، ساده می‌کند. در ادامه یک مثال کد پایه‌ای نشان می‌دهد که چگونه توسعه‌دهندگان نرم‌افزار می‌توانند از PDF2Docx برای تبدیل یک فایل PDF به فایل DOCX با استفاده از دستورات Python استفاده کنند.

چگونه یک فایل PDF را به فایل Word DOCX از طریق کتابخانه Python تبدیل کنیم؟

import pdf2docx

# Specify the path to your PDF file
pdf_file = "path/to/your/file.pdf"

# Specify the path to the output DOCX file
docx_file = "converted_document.docx"

# Create a PDF2Docx object
converter = pdf2docx.Converter()

# Convert the PDF to DOCX
converter.convert(pdf_file, docx_file)

print("PDF converted to DOCX successfully!")

تبدیل صفحات خاص PDF به DOCX از طریق Python

توسعه‌دهندگان می‌توانند از کتابخانه PDF2Docx برای تبدیل یک صفحه خاص PDF یا بازه‌ای از صفحات به اسناد Word تنها با چند خط کد Python استفاده کنند. توسعه‌دهندگان می‌توانند بازه‌ای از صفحات را برای تبدیل مشخص کنند که برای کار با اسناد بزرگ یا زمانی که فقط بخش خاصی از PDF مورد نیاز است، بسیار مفید است. مثال زیر نشان می‌دهد چگونه بازه‌ای از صفحات را مشخص کرده و آن‌ها را به اسناد Word DOCX درون برنامه‌های Python تبدیل کنیم.

چگونه محدوده‌ای از صفحات PDF را مشخص کرده و به فایل Word DOCX تبدیل کنیم از طریق کتابخانه Python؟

cv = Converter("large_document.pdf")  

# Convert pages 2 to 5

cv.convert("output.docx", start=2, end=5)    
cv.close()  
print("Partial conversion completed!")

حفظ چیدمان و ساختار سند

کتابخانه منبع باز PDF2Docx برای حفظ دقیق ساختار فایل PDF اصلی در حین فرآیند تبدیل طراحی شده است. می‌تواند چیدمان PDF شما را تجزیه و دوباره در فایل DOCX بازسازی کند. این اطمینان می‌دهد جداول و چیدمان‌های چند ستونی در فایل Word تکرار می‌شوند، تصاویر در موقعیت‌های اصلی خود تعبیه می‌شوند، جریان پاراگراف‌ها یا بلوک‌های متن حفظ می‌شود و غیره. مثال زیر نشان می‌دهد چگونه حفظ ساختار سند را در حین تبدیل PDF به فایل Word DOCX درون برنامه‌های Python انجام دهیم.

چگونه ساختار سند را هنگام تبدیل PDF به DOCX با Python حفظ کنیم؟

from pdf2docx import Converter  

pdf_file = "sample.pdf"  
docx_file = "output.docx"  

cv = Converter(pdf_file)  
cv.convert(docx_file, start=0, end=None)  # Convert all pages  
cv.close()  
print("PDF converted to DOCX successfully!")

سفارشی‌سازی و توسعه مقرون به صرفه

کتابخانه PDF2Docx به توسعه‌دهندگان نرم‌افزار امکان تنظیم دقیق فرآیند تبدیل را می‌دهد تا خروجی با الزامات خاص مطابقت داشته باشد. این سطح از سفارشی‌سازی به‌ویژه برای راه‌حل‌های تجاری سفارشی مفید است. از آنجا که کتابخانه منبع باز است، هزینه‌های لایسنس را حذف می‌کند و برای پروژه‌های حساس به بودجه ایده‌آل است. توسعه‌دهندگان می‌توانند عملکرد تبدیل PDF به Word را بدون سرمایه‌گذاری در نرم‌افزارهای پرهزینه ثالث پیاده‌سازی کنند.