Open Source Python API to Build Smart OCR Apps
Free Python OCR API to Detect and Recognize Text from Images, Including Natural Scenes, Forms, and Scanned Documents inside Python Apps.
MonkeyOCR কী?
MonkeyOCR হল একটি উন্নত, এন্ড-টু-এন্ড অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) সিস্টেম যা ডিপ লার্নিং ভিত্তিক, শক্তিশালী এবং নমনীয় সমাধান খুঁজছেন সফটওয়্যার ডেভেলপারদের জন্য তৈরি। Yuliang Liu দ্বারা উন্নত এই লাইব্রেরি প্রাকৃতিক দৃশ্য, ফর্ম এবং স্ক্যান করা ডকুমেন্টসহ বিভিন্ন উৎস থেকে টেক্সটের সঠিক সনাক্তকরণ এবং স্বীকৃতি প্রদান করে। এর মডুলার ও স্কেলেবল আর্কিটেকচার সর্বাধুনিক ডিপ লার্নিং কৌশলকে শক্তিশালী ইনফারেন্স পাইপলাইনের সঙ্গে একত্রিত করে, যা বাস্তব জগতের টেক্সট রিকগনিশন কাজের জন্য অত্যন্ত উপযুক্ত। ব্যবহারিক প্রয়োগের মধ্যে ইনভয়েস স্ক্যানিং, আইডি কার্ড রিডিং, সাইনবোর্ড থেকে টেক্সট বের করা এবং বহু-ভাষিক OCR অথবা PDF‑থেকে‑ডেটা পাইপলাইন নির্মাণ অন্তর্ভুক্ত।
সর্বোচ্চ নমনীয়তার জন্য ডিজাইন করা MonkeyOCR সফটওয়্যার ইঞ্জিনিয়ারদেরকে বাণিজ্যিক OCR ইঞ্জিনের ওপর নির্ভর না করে বুদ্ধিমান ডকুমেন্ট প্রসেসিং সিস্টেম তৈরি করতে সক্ষম করে। এটি একটি সম্পূর্ণ মডুলার OCR পাইপলাইন, সহজ YAML ফাইল কনফিগারেশন এবং কার্যকর ব্যাচ ইনফারেন্স সাপোর্টের মতো উন্নত বৈশিষ্ট্য প্রদান করে। সিস্টেমটি DBNet++ এর মতো আধুনিক ডিটেকশন মডেল এবং CRNN এর মতো রিকগনিশন মডেল ব্যবহার করে কোঅর্ডিনেটসহ সুনির্দিষ্ট টেক্সট বক্স আউটপুট প্রদান করে, যা কনফিগারযোগ্য প্রি‑ এবং পোস্ট‑প্রসেসিং ফ্রেমওয়ার্কের মধ্যে কাজ করে। মডুলার ডিজাইন, আধুনিক মডেলের সমর্থন এবং সহজ কনফিগারেশন এই লাইব্রেরিটিকে এন্টারপ্রাইজ ডকুমেন্ট অটোমেশন থেকে মোবাইল‑ভিত্তিক দৃশ্য টেক্সট রিকগনিশন পর্যন্ত জটিল, বাস্তব‑জগতের অ্যাপ্লিকেশন নির্মাণের জন্য আদর্শ করে তুলেছে।
MonkeyOCR দিয়ে শুরু করা
MonkeyOCR ইনস্টল করার সুপারিশকৃত উপায় হল pip ব্যবহার করা। মসৃণ ইনস্টলেশনের জন্য নিচের কমান্ডটি ব্যবহার করুন।
Install MonkeyOCR via pip
pip install MonkeyOCR Install MonkeyOCR via GitHub
git clone https://github.com/Yuliang-Liu/MonkeyOCR.git আপনি এছাড়াও ম্যানুয়ালি ইনস্টল করতে পারেন; সর্বশেষ রিলিজ ফাইলগুলো সরাসরি GitHub রেপোজিটরি থেকে ডাউনলোড করুন।
পাইথন ব্যবহার করে রসিদ ছবির থেকে টেক্সট বের করা
ওপেন সোর্স MonkeyOCR হল একটি এন্ড‑টু‑এন্ড অপটিক্যাল ক্যারেক্টার রিকগনিশন সিস্টেম যা ডিপ লার্নিং কৌশলের উপর ভিত্তি করে। সফটওয়্যার ডেভেলপাররা যারা ডকুমেন্ট, আইডি, রসিদ বা লাইসেন্স প্লেট স্ক্যান করে এমন অ্যাপ তৈরি করেন, তারা MonkeyOCR সরাসরি তাদের ব্যাকএন্ড পাইপলাইনে সংযুক্ত করতে পারেন। এর মডুলার ডিজাইনের মাধ্যমে আপনি শুধুমাত্র ডিটেকশন মডেল ব্যবহার করতে পারেন অথবা রিকগনিশনের সঙ্গে যুক্ত করে ছবিতে গঠনমূলক টেক্সট বের করতে পারেন। নিচে একটি সহজ উদাহরণ দেওয়া হয়েছে যা দেখায় কীভাবে পাইথন API ব্যবহার করে রসিদ ছবির থেকে টেক্সট বের করা যায়।
How to Extract Text from a Receipt Image via Python API?
from monkey_ocr.ocr_predict import OCRPredictor
ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")
for line in results:
print(line['text'])
নির্দিষ্ট ব্যবহার কেসের জন্য কাস্টম OCR পাইপলাইন
ওপেন সোর্স MonkeyOCR লাইব্রেরির সবচেয়ে বড় শক্তিগুলোর একটি হল এর মডুলার আর্কিটেকচার। সফটওয়্যার ডেভেলপাররা ডিটেকশন, রিকগনিশন এবং ক্লাসিফিকেশন মডেলগুলোকে তাদের অ্যাপ্লিকেশন প্রয়োজনীয়তার ভিত্তিতে মিশ্রিত এবং মিলিয়ে নিতে পারেন। উদাহরণস্বরূপ, একটি ডকুমেন্ট স্ক্যানিং অ্যাপ হালকা ওজনের DBNet মডেলকে ডিটেকশনের জন্য এবং CRNN মডেলকে রিকগনিশনের জন্য ব্যবহার করে গতি এবং নির্ভুলতা উভয়ই অপ্টিমাইজ করতে পারে।
Custom OCR Pipelines via Python API?
from monkey_ocr.ocr_predict import OCRPredictor
ocr = OCRPredictor(
det_model_path="weights/dbnet.pth",
rec_model_path="weights/crnn.pth"
)
results = ocr.predict("form_image.jpg")
for item in results:
print(item["text"], item["box"])
ব্যবসায়িক সফটওয়্যারের সাথে ইন্টিগ্রেশন
ওপেন সোর্স MonkeyOCR লাইব্রেরি এন্টারপ্রাইজ ডকুমেন্ট ওয়ার্কফ্লোতে সংযুক্ত করা যায়, যেমন ERP বা CRM সিস্টেমে ডেটা এন্ট্রি স্বয়ংক্রিয় করা। সফটওয়্যার ডেভেলপাররা MonkeyOCR ব্যাকগ্রাউন্ডে চালিয়ে ব্যবহারকারীর আপলোড করা স্ক্যান করা PDF বা ইমেজ-ভিত্তিক ডকুমেন্ট স্ক্যান করতে পারেন এবং স্বয়ংক্রিয়ভাবে গঠনমূলক তথ্য বের করতে পারেন। একটি config.yaml দিয়ে MonkeyOCR কনফিগার করে টিমগুলো বিভিন্ন ডিপ্লয়মেন্টে সামঞ্জস্য বজায় রাখতে পারে।
স্বয়ংক্রিয় ফর্ম রিডার তৈরি করুন
MonkeyOCR এর টেক্সট ডিটেকশনকে পজিশনাল ডেটা (বাউন্ডিং বক্স) সঙ্গে যুক্ত করে ডেভেলপাররা বুদ্ধিমান ফর্ম রিডার ডিজাইন করতে পারেন যা ফিল্ডগুলো (যেমন “নাম”, “তারিখ”, “পরিমাণ”) সনাক্ত করে এবং সংশ্লিষ্ট ডেটা বের করে। এটি ট্যাক্স ডকুমেন্ট, মেডিকেল ফর্ম বা সার্ভে ইত্যাদির জন্য আদর্শ।