Word DOCX কন্টেন্টকে ওয়েব-রেডি HTML-এ রূপান্তর করার জন্য Python API

ওপেন-সোর্স Python লাইব্রেরি যা সফটওয়্যার ডেভেলপারদের Microsoft Word DOCX কন্টেন্টকে Python অ্যাপের মধ্যে ওয়েব-রেডি HTML-এ পড়া এবং রূপান্তর করতে দেয়।

Python-Mammoth কী?

ডকুমেন্ট রূপান্তর সফটওয়্যার ডেভেলপারদের জন্য একটি গুরুত্বপূর্ণ প্রয়োজনীয়তা হয়ে উঠেছে, যারা আজকের ডিজিটাল পরিবেশে টেক্সটের সঙ্গে ইন্টারঅ্যাক্ট করে এমন অ্যাপ তৈরি করে। ফাইল ফরম্যাটের মধ্যে মসৃণ ট্রানজিশন সামঞ্জস্যতা নিশ্চিত করতে পারে এবং একটি ই-লার্নিং প্ল্যাটফর্ম, ডকুমেন্ট অটোমেশন টুল, অথবা কন্টেন্ট ম্যানেজমেন্ট সিস্টেম (CMS) এ কাজ করার সময় সময় বাঁচাতে পারে। এই ক্ষেত্রে একটি শক্তিশালী লাইব্রেরি হল Python-Mammoth, একটি ওপেন-সোর্স Python লাইব্রেরি, যা বিশেষভাবে Microsoft Word (DOCX) ডকুমেন্টগুলোকে পরিষ্কার এবং সেম্যান্টিক HTML-এ রূপান্তরের জন্য ডিজাইন করা হয়েছে। এটি সেম্যান্টিক HTML আউটপুট সমর্থন করে, DOCX ফাইল থেকে ইমেজ এক্সট্র্যাক্ট করে, কাস্টম স্টাইল ম্যাপিং, অযৌক্তিক উপাদানের বা সম্ভাব্য ফরম্যাটিং সমস্যার সম্পর্কে সহায়ক সতর্কতা, Python-ভিত্তিক অ্যাপ্লিকেশনের সঙ্গে সহজ ইন্টিগ্রেশন এবং আরও অনেক কিছু।

মাইকেল উইলিয়ামসন দ্বারা বিকাশিত, Python-Mammoth একটি ওপেন-সোর্স Python লাইব্রেরি, যা DOCX ডকুমেন্টের মূল কন্টেন্ট এক্সট্র্যাক্ট করা এবং সেগুলোকে ভালভাবে গঠিত HTML-এ রূপান্তর করার উপর কেন্দ্রীভূত। এর প্রধান লক্ষ্য হল অনাবশ্যক ইনলাইন স্টাইল বা অতিরিক্ত মার্কআপ ছাড়া পরিষ্কার এবং সেম্যান্টিক HTML আউটপুট তৈরি করা। অনেক অন্যান্য ডকুমেন্ট রূপান্তর টুলের তুলনায়, এটি সরলতা এবং নির্ভুলতাকে অগ্রাধিকার দেয়, হেডিং, প্যারাগ্রাফ এবং লিস্টের মতো ডকুমেন্টের সেম্যান্টিক্স সংরক্ষণ করে, পিক্সেল-প্রতিনিধিত্বের উপর ফোকাস না করে। লাইব্রেরিটি Word টেমপ্লেট থেকে পরিষ্কার এবং সঙ্গতিপূর্ণ HTML রিপোর্ট তৈরি সমর্থন করে। সরলতা, পরিষ্কার আউটপুট এবং সম্প্রসারণযোগ্যতার উপর এর ফোকাস ডকুমেন্ট রূপান্তর সমাধান খুঁজছেন ডেভেলপারদের জন্য একটি চমৎকার পছন্দ করে তোলে।

Previous Next

Python-Mammoth দিয়ে শুরু করা

Python-Mammoth PyPI-তে হোস্ট করা আছে, তাই এটি ইনস্টল করা খুব সহজ। নিচের কমান্ড দিয়ে pip ব্যবহার করে এটি ইনস্টল করা যায়।

pip কমান্ড দিয়ে Python-Mammoth ইনস্টল করুন

 pip install mammoth 

Python ব্যবহার করে Word DOCX থেকে HTML রূপান্তর

ওপেন-সোর্স Python-Mammoth লাইব্রেরি সফটওয়্যার ডেভেলপারদের Microsoft Word DOCX ফাইলকে Python অ্যাপ্লিকেশনের মধ্যে HTML-এ লোড এবং রূপান্তর করা সহজ করে। লাইব্রেরির অন্যতম প্রধান ফিচার হল এর পরিষ্কার, সেম্যান্টিক HTML আউটপুট তৈরির ক্ষমতা। এটি অপ্রয়োজনীয় ইনলাইন স্টাইল বা প্রোপ্রাইটারি ট্যাগ অন্তর্ভুক্ত করা এড়িয়ে যায়, নিশ্চিত করে যে চূড়ান্ত HTML হালকা এবং CSS দিয়ে স্টাইল করা সহজ থাকে। নিচের উদাহরণটি দেখায় কিভাবে DOCX কন্টেন্টকে HTML-এ রূপান্তর করা হয়, যা প্রদর্শন বা আরও স্টাইল করার জন্য প্রস্তুত।

Python API দিয়ে DOCX কন্টেন্টকে HTML-এ কীভাবে রূপান্তর করবেন?

 import mammoth

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file)
    html = result.value # The generated HTML
    messages = result.messages # Any messages, such as warnings during conversion

কাস্টম স্টাইল ম্যাপিং সাপোর্ট

Python-Mammoth লাইব্রেরি কাস্টমাইজেশন অপশন সরবরাহ করে, যা সফটওয়্যার ডেভেলপারদের টেক্সট এক্সট্র্যাকশন প্রক্রিয়াকে তাদের নির্দিষ্ট প্রয়োজন অনুযায়ী সূক্ষ্ম-সেটিং করতে দেয়। ডেভেলপাররা কাস্টম স্টাইল ম্যাপিং নির্ধারণ করতে পারে, যাতে DOCX স্টাইলগুলো নির্দিষ্ট HTML উপাদানে রূপান্তরিত হয়। এটি ডকুমেন্ট কন্টেন্ট রেন্ডারিংয়ে আরও বেশি নমনীয়তা প্রদান করে। এখানে একটি উদাহরণ রয়েছে, যা দেখায় কীভাবে DOCX-এ Heading 1 স্টাইল স্পষ্টভাবে Python অ্যাপ্লিকেশনের মধ্যে একটি HTML h1 ট্যাগে ম্যাপ করা হয়।

Python অ্যাপে DOCX-এ Heading 1 স্টাইলকে HTML H1 ট্যাগে কীভাবে ম্যাপ করবেন?

style_map = "p[style-name='Heading 1'] => h1:fresh"
with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, style_map=style_map)
    html = result.value
print(html)

 

Python ব্যবহার করে DOCX ইমেজগুলোকে HTML-এ রূপান্তর

ওপেন-সোর্স Python-Mammoth লাইব্রেরি সফটওয়্যার ডেভেলপারদের Microsoft Word DOCX ফাইল থেকে ইমেজ এক্সট্র্যাক্ট করা এবং ফলিত HTML-এ অন্তর্ভুক্ত করা সহজ করে। ডিফল্টভাবে, ইমেজ রেফারেন্সগুলো URL হিসেবে অন্তর্ভুক্ত হয়ে থাকে, তবে ডেভেলপাররা ইমেজের হ্যান্ডলিং কাস্টমাইজ করতে পারে। এখানে একটি উদাহরণ রয়েছে, যা দেখায় কীভাবে DOCX ফাইলের ইমেজগুলো Python কমান্ড ব্যবহার করে HTML আউটপুটে সংরক্ষিত হয়।

Python API দিয়ে DOCX ফাইল থেকে ইমেজকে HTML আউটপুটে কীভাবে রূপান্তর করবেন?

with open("document.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, convert_image=mammoth.images.img_element())
    html = result.value

print(html)

 

লেআউট বিশ্লেষণ

ওপেন-সোর্স Python-Mammoth লাইব্রেরি Word DOCX ডকুমেন্টের লেআউট বিশ্লেষণ করতে পারে, টেবিল, ইমেজ এবং টেক্সট ব্লকের মতো উপাদানগুলো চিহ্নিত করে। এই ফিচারটি সঠিক লেআউট তথ্য এক্সট্র্যাকশন প্রয়োজনীয় অ্যাপ্লিকেশনের জন্য অপরিহার্য।

 বাংলা