1. পণ্য
  2.   OCR
  3.   Python
  4.   MonkeyOCR
 
  

Open Source Python API to Build Smart OCR Apps

Free Python OCR API to Detect and Recognize Text from Images, Including Natural Scenes, Forms, and Scanned Documents inside Python Apps.

MonkeyOCR কী?

MonkeyOCR হল একটি উন্নত, এন্ড-টু-এন্ড অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) সিস্টেম যা ডিপ লার্নিং ভিত্তিক, শক্তিশালী এবং নমনীয় সমাধান খুঁজছেন সফটওয়্যার ডেভেলপারদের জন্য তৈরি। Yuliang Liu দ্বারা উন্নত এই লাইব্রেরি প্রাকৃতিক দৃশ্য, ফর্ম এবং স্ক্যান করা ডকুমেন্টসহ বিভিন্ন উৎস থেকে টেক্সটের সঠিক সনাক্তকরণ এবং স্বীকৃতি প্রদান করে। এর মডুলার ও স্কেলেবল আর্কিটেকচার সর্বাধুনিক ডিপ লার্নিং কৌশলকে শক্তিশালী ইনফারেন্স পাইপলাইনের সঙ্গে একত্রিত করে, যা বাস্তব জগতের টেক্সট রিকগনিশন কাজের জন্য অত্যন্ত উপযুক্ত। ব্যবহারিক প্রয়োগের মধ্যে ইনভয়েস স্ক্যানিং, আইডি কার্ড রিডিং, সাইনবোর্ড থেকে টেক্সট বের করা এবং বহু-ভাষিক OCR অথবা PDF‑থেকে‑ডেটা পাইপলাইন নির্মাণ অন্তর্ভুক্ত।

সর্বোচ্চ নমনীয়তার জন্য ডিজাইন করা MonkeyOCR সফটওয়্যার ইঞ্জিনিয়ারদেরকে বাণিজ্যিক OCR ইঞ্জিনের ওপর নির্ভর না করে বুদ্ধিমান ডকুমেন্ট প্রসেসিং সিস্টেম তৈরি করতে সক্ষম করে। এটি একটি সম্পূর্ণ মডুলার OCR পাইপলাইন, সহজ YAML ফাইল কনফিগারেশন এবং কার্যকর ব্যাচ ইনফারেন্স সাপোর্টের মতো উন্নত বৈশিষ্ট্য প্রদান করে। সিস্টেমটি DBNet++ এর মতো আধুনিক ডিটেকশন মডেল এবং CRNN এর মতো রিকগনিশন মডেল ব্যবহার করে কোঅর্ডিনেটসহ সুনির্দিষ্ট টেক্সট বক্স আউটপুট প্রদান করে, যা কনফিগারযোগ্য প্রি‑ এবং পোস্ট‑প্রসেসিং ফ্রেমওয়ার্কের মধ্যে কাজ করে। মডুলার ডিজাইন, আধুনিক মডেলের সমর্থন এবং সহজ কনফিগারেশন এই লাইব্রেরিটিকে এন্টারপ্রাইজ ডকুমেন্ট অটোমেশন থেকে মোবাইল‑ভিত্তিক দৃশ্য টেক্সট রিকগনিশন পর্যন্ত জটিল, বাস্তব‑জগতের অ্যাপ্লিকেশন নির্মাণের জন্য আদর্শ করে তুলেছে।

Previous Next

MonkeyOCR দিয়ে শুরু করা

MonkeyOCR ইনস্টল করার সুপারিশকৃত উপায় হল pip ব্যবহার করা। মসৃণ ইনস্টলেশনের জন্য নিচের কমান্ডটি ব্যবহার করুন।

Install MonkeyOCR via pip

 pip install MonkeyOCR 

Install MonkeyOCR via GitHub

 git clone https://github.com/Yuliang-Liu/MonkeyOCR.git 

আপনি এছাড়াও ম্যানুয়ালি ইনস্টল করতে পারেন; সর্বশেষ রিলিজ ফাইলগুলো সরাসরি GitHub রেপোজিটরি থেকে ডাউনলোড করুন।

পাইথন ব্যবহার করে রসিদ ছবির থেকে টেক্সট বের করা

ওপেন সোর্স MonkeyOCR হল একটি এন্ড‑টু‑এন্ড অপটিক্যাল ক্যারেক্টার রিকগনিশন সিস্টেম যা ডিপ লার্নিং কৌশলের উপর ভিত্তি করে। সফটওয়্যার ডেভেলপাররা যারা ডকুমেন্ট, আইডি, রসিদ বা লাইসেন্স প্লেট স্ক্যান করে এমন অ্যাপ তৈরি করেন, তারা MonkeyOCR সরাসরি তাদের ব্যাকএন্ড পাইপলাইনে সংযুক্ত করতে পারেন। এর মডুলার ডিজাইনের মাধ্যমে আপনি শুধুমাত্র ডিটেকশন মডেল ব্যবহার করতে পারেন অথবা রিকগনিশনের সঙ্গে যুক্ত করে ছবিতে গঠনমূলক টেক্সট বের করতে পারেন। নিচে একটি সহজ উদাহরণ দেওয়া হয়েছে যা দেখায় কীভাবে পাইথন API ব্যবহার করে রসিদ ছবির থেকে টেক্সট বের করা যায়।

How to Extract Text from a Receipt Image via Python API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(det_model_path="weights/dbnet.pth", rec_model_path="weights/crnn.pth")
results = ocr.predict("receipt.jpg")

for line in results:
    print(line['text'])

নির্দিষ্ট ব্যবহার কেসের জন্য কাস্টম OCR পাইপলাইন

ওপেন সোর্স MonkeyOCR লাইব্রেরির সবচেয়ে বড় শক্তিগুলোর একটি হল এর মডুলার আর্কিটেকচার। সফটওয়্যার ডেভেলপাররা ডিটেকশন, রিকগনিশন এবং ক্লাসিফিকেশন মডেলগুলোকে তাদের অ্যাপ্লিকেশন প্রয়োজনীয়তার ভিত্তিতে মিশ্রিত এবং মিলিয়ে নিতে পারেন। উদাহরণস্বরূপ, একটি ডকুমেন্ট স্ক্যানিং অ্যাপ হালকা ওজনের DBNet মডেলকে ডিটেকশনের জন্য এবং CRNN মডেলকে রিকগনিশনের জন্য ব্যবহার করে গতি এবং নির্ভুলতা উভয়ই অপ্টিমাইজ করতে পারে।

Custom OCR Pipelines via Python API?

from monkey_ocr.ocr_predict import OCRPredictor

ocr = OCRPredictor(
    det_model_path="weights/dbnet.pth",
    rec_model_path="weights/crnn.pth"
)

results = ocr.predict("form_image.jpg")
for item in results:
    print(item["text"], item["box"])

ব্যবসায়িক সফটওয়্যারের সাথে ইন্টিগ্রেশন

ওপেন সোর্স MonkeyOCR লাইব্রেরি এন্টারপ্রাইজ ডকুমেন্ট ওয়ার্কফ্লোতে সংযুক্ত করা যায়, যেমন ERP বা CRM সিস্টেমে ডেটা এন্ট্রি স্বয়ংক্রিয় করা। সফটওয়্যার ডেভেলপাররা MonkeyOCR ব্যাকগ্রাউন্ডে চালিয়ে ব্যবহারকারীর আপলোড করা স্ক্যান করা PDF বা ইমেজ-ভিত্তিক ডকুমেন্ট স্ক্যান করতে পারেন এবং স্বয়ংক্রিয়ভাবে গঠনমূলক তথ্য বের করতে পারেন। একটি config.yaml দিয়ে MonkeyOCR কনফিগার করে টিমগুলো বিভিন্ন ডিপ্লয়মেন্টে সামঞ্জস্য বজায় রাখতে পারে।

স্বয়ংক্রিয় ফর্ম রিডার তৈরি করুন

MonkeyOCR এর টেক্সট ডিটেকশনকে পজিশনাল ডেটা (বাউন্ডিং বক্স) সঙ্গে যুক্ত করে ডেভেলপাররা বুদ্ধিমান ফর্ম রিডার ডিজাইন করতে পারেন যা ফিল্ডগুলো (যেমন “নাম”, “তারিখ”, “পরিমাণ”) সনাক্ত করে এবং সংশ্লিষ্ট ডেটা বের করে। এটি ট্যাক্স ডকুমেন্ট, মেডিকেল ফর্ম বা সার্ভে ইত্যাদির জন্য আদর্শ।

 বাংলা