API رایگان Python برای استخراج متن، جداول، تصاویر از فایل‌های DOCX

کتابخانه منبع باز Python برای استخراج متن، تصاویر، جداول، سرصفحه‌ها و پانویس‌ها یا هر بخش خاص دیگری از اسناد Word DOCX درون برنامه‌های Python.

کتابخانه Docx2Python چیست؟

در عصر دیجیتال امروز، پردازش کارآمد و استخراج داده‌ها از اسناد بیش از هر زمان دیگری مهم است. توسعه‌دهندگان نرم‌افزار اغلب با فایل‌های Microsoft Word DOCX مواجه می‌شوند که اطلاعات ارزشمندی دارند، اما تجزیه و تحلیل آن‌ها می‌تواند چالش‌انگیز باشد. Docx2Python کتابخانه‌ای Python است که به توسعه‌دهندگان امکان استخراج متن، جداول، تصاویر و سایر محتواها از فایل‌های .docx را به راحتی می‌دهد. برخلاف سایر کتابخانه‌های پردازش سند، Docx2Python به‌طور خاص برای ارائه خروجی تمیز و ساختار یافته طراحی شده است که کار با آن آسان باشد. این ویژگی آن را به گزینه‌ای عالی برای توسعه‌دهندگانی که نیاز به تجزیه و تحلیل برنامه‌نویسی اسناد Word دارند، تبدیل می‌کند. این کتابخانه منبع باز است، به این معنی که به‌صورت آزاد برای هر کسی قابل استفاده، تغییر و توزیع می‌باشد.

Docx2Python یک ابزار قدرتمند است که برای خواندن فایل‌های DOCX و تبدیل محتویات آن‌ها به ساختارهای داده تو در تو در Python طراحی شده است. این یک کتابخانهٔ منبع باز، قوی و انعطاف‌پذیر است که استخراج داده‌های ساختاریافته از فایل‌های DOCX را ساده می‌کند. کتابخانه از تجزیه و تحلیل جامع، تولید خودکار گزارش‌ها، پردازش پیشرفته سند، خروجی داده‌های ساختاریافته، حفظ چیدمان و غیره پشتیبانی می‌کند. توسعه‌دهندگان می‌توانند محتویات DOCX را به فرمت‌های دیگر (مانند HTML یا Markdown) تبدیل کنند در حالی که ظاهر موردنظر حفظ می‌شود. با پذیرش راه‌حل‌های منبع باز مانند Docx2Python، توسعه‌دهندگان می‌توانند بار کاری دستی را کاهش دهند، نوآوری را تقویت کنند و برنامه‌هایی ایجاد کنند که واقعاً نحوه تعامل و تجزیه و تحلیل داده‌های متنی را تغییر می‌دهند.

Previous Next

شروع کار با Docx2Python

Docx2Python در PyPI میزبانی می‌شود، بنابراین نصب آن بسیار ساده است. می‌توانید با استفاده از pip با فرمان زیر آن را نصب کنید.

نصب Docx2Python با فرمان pip

pip install docx2python 

همچنین می‌توان از طریق easy_install نصب کرد، اما این روش توصیه نمی‌شود.

استخراج متن برای اسناد Word

کتابخانه منبع باز Docx2Python به توسعه‌دهندگان نرم‌افزار اجازه می‌دهد تا به راحتی متن ساده را از یک سند Word در داخل برنامه‌های Python استخراج کنند. این کتابخانه به طور جامع تمام عناصر موجود در یک فایل DOCX را تجزیه می‌کند. چه برای استخراج متن ساده، جداول دقیق یا ساختار دقیق سرصفحه‌ها و پانویس‌ها نیاز داشته باشید، این کتابخانه همه چیز را مدیریت می‌کند. رویکرد تجزیه چندسطحی آن تضمین می‌کند که حتی عناصر تو در تو نیز به دقت در ساختار داده خروجی ثبت شوند.

چگونه متن را از Word DOCX با استفاده از کد Python استخراج کنیم؟

from docx2python import docx2python

# Parse a DOCX file with multiple sections and elements
result = docx2python('sample.docx')

# Iterate over the body sections and print each paragraph
for section in result.body:
    for paragraph in section:
        print("Paragraph:", paragraph)

استخراج جداول و تصاویر از فایل Word

یکی از قدرتمندترین ویژگی‌های Docx2Python توانایی آن در استخراج جداول از فایل‌های Word .docx به سادگی است. این کتابخانه هم جداول ساده و هم جداول تو در تو را مدیریت می‌کند و برای پردازش اسناد پیچیده ایده‌آل است. علاوه بر این، توسعه‌دهندگان می‌توانند از این کتابخانه برای استخراج تصاویر تعبیه‌شده در فایل‌های Microsoft Word .docx استفاده کنند که برای برنامه‌هایی که به پردازش یا تحلیل تصویر نیاز دارند مفید است.

چگونه جداول را از فایل‌های Word DOCX با API Python استخراج کنیم؟

from docx2python import docx2python

# Extract tables from a Word document
docx_content = docx2python("example.docx")

# Access the extracted tables
tables = docx_content.tables

# Print the tables
for i, table in enumerate(tables):
    print(f"Table {i + 1}:")
    for row in table:
        print(row)
 

استخراج بخش خاصی از اسناد با Python

Docx2Python گزینه‌هایی برای سفارشی‌سازی قالب خروجی فراهم می‌کند و به توسعه‌دهندگان امکان می‌دهد نتایج را به نیازهای خاص خود تنظیم کنند. کتابخانه منبع باز Docx2Python عملکرد کامل برای استخراج بخش یا قسمتی خاص از اسناد Word DOCX درون برنامه‌های Python را ارائه می‌دهد. توسعه‌دهندگان می‌توانند فقط بخش‌های مشخصی از سند را استخراج کنند یا خروجی را به شکل خاصی قالب‌بندی کنند تنها با چند خط کد.

چگونه بخش خاصی از یک سند Word را با کتابخانه Python استخراج کنیم؟

from docx2python import docx2python

# Extract specific sections of a Word document
docx_content = docx2python("example.docx", html=True)

# Access the HTML-formatted output
html_content = docx_content.html

# Print the HTML content
print("HTML Output:", html_content)
 

حفظ چیدمان هنگام تبدیل DOCX

حفظ چیدمان اصلی یک سند ضروری است، به‌ویژه وقتی روابط فضایی بین عناصر اهمیت دارد. Docx2Python این چیدمان را با تبدیل سند به قالب ساختاری که طراحی اصلی آن را بازتاب می‌دهد، حفظ می‌کند. این کار تبدیل محتویات DOCX به فرمت‌های دیگر مانند HTML، PDF یا Markdown را راحت‌تر می‌سازد در حالی که ظاهر موردنظر حفظ می‌شود.

چگونه چیدمان سند را با API Python حفظ کنیم؟

# Parse a DOCX file while preserving its layout
result = docx2python('layout_document.docx')

# Display the entire structured layout of the document
print("Document Layout:", result.body)
 
 فارسی