1. পণ্য
  2.   OCR
  3.   Python
  4.   PaddleOCR
 
  

ওসিআর ক্ষমতা একীভূত করতে ওপেন সোর্স পাইথন এপিআই

ওপেন সোর্স পাইথন লাইব্রেরি যা সফ্টওয়্যার বিকাশকারীদের তাদের অ্যাপ্লিকেশনগুলিতে অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) ক্ষমতাগুলিকে সহজেই একীভূত করতে দেয়।

PaddleOCR হল একটি শক্তিশালী ওপেন সোর্স পাইথন লাইব্রেরি যা সফ্টওয়্যার বিকাশকারীদের তাদের Python অ্যাপ্লিকেশনগুলিতে অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) ক্ষমতাগুলিকে সহজেই একীভূত করতে সক্ষম করে। এটি প্যাডেলপ্যাডলের উপরে নির্মিত, একটি ওপেন-সোর্স ডিপ লার্নিং প্ল্যাটফর্ম, এবং উচ্চ নির্ভুলতা এবং কর্মক্ষমতা অর্জনের জন্য অত্যাধুনিক ডিপ লার্নিং মডেল ব্যবহার করে। PaddleOCR একটি উচ্চ-স্তরের API প্রদান করে OCR প্রক্রিয়াটিকে সহজ করে যা অনেক নিম্ন-স্তরের বিবরণকে বিমূর্ত করে দেয়, যা ডেভেলপারদের জন্য তাদের অ্যাপ্লিকেশনগুলিতে OCR ক্ষমতা যুক্ত করা সহজ করে তোলে।

প্যাডলওসিআর বিস্তৃত ভাষা এবং স্ক্রিপ্টের জন্য সম্পূর্ণ সমর্থন প্রদান করেছে। এটি বর্তমানে আরবি, চীনা, ইংরেজি, ফরাসি, জার্মান, জাপানি, কোরিয়ান, রাশিয়ান, স্প্যানিশ এবং আরও অনেকগুলি সহ 80+ বিভিন্ন ভাষা সমর্থন করে। এটি ডেভেলপারদের জন্য একটি মূল্যবান হাতিয়ার করে তোলে যাদের বহুভাষিক বিষয়বস্তু নিয়ে কাজ করতে হবে। এর শক্তিশালী ওসিআর ক্ষমতা ছাড়াও, লাইব্রেরিতে ইমেজ এবং টেক্সট নিয়ে কাজ করার জন্য বেশ কিছু দরকারী ইউটিলিটিও রয়েছে। উদাহরণ স্বরূপ, এতে ইমেজ প্রিপ্রসেসিং-এর জন্য টুল রয়েছে, যেমন deskewing এবং binarization, সেইসাথে OCR আউটপুটের নির্ভুলতা উন্নত করার জন্য পোস্ট-প্রসেসিং টুল।

PaddleOCR বিভিন্ন OCR মডেল প্রদান করে, প্রতিটি ভিন্ন ব্যবহারের ক্ষেত্রে অপ্টিমাইজ করা হয়েছে। উদাহরণস্বরূপ, পাঠ্য সনাক্তকরণ মডেলটি একটি চিত্র থেকে পাঠ্য অঞ্চলগুলি সনাক্ত করতে এবং বের করতে ব্যবহৃত হয়, যখন পাঠ্য শনাক্তকরণ মডেলটি সেই অঞ্চলগুলির মধ্যে প্রকৃত পাঠ্য সনাক্ত করতে ব্যবহৃত হয়। একটি মডেল এনসেম্বল বৈশিষ্ট্যও রয়েছে যা বিকাশকারীদের আরও উচ্চ নির্ভুলতা অর্জনের জন্য একাধিক মডেলকে একত্রিত করতে দেয়। সামগ্রিকভাবে, আপনার পাইথন অ্যাপ্লিকেশনগুলিতে OCR ক্ষমতা যুক্ত করার জন্য PaddleOCR একটি শক্তিশালী এবং সহজেই ব্যবহারযোগ্য লাইব্রেরি। ভাষা এবং স্ক্রিপ্টের বিস্তৃত পরিসরের জন্য এর সমর্থন, সেইসাথে এর কাস্টমাইজযোগ্য মডেল এবং পোস্টপ্রসেসিং টুল, এটিকে OCR এর সাথে কাজ করা বিকাশকারীদের জন্য একটি মূল্যবান হাতিয়ার করে তোলে।

Previous Next

PadleOCR দিয়ে শুরু করা

প্যাডেলওসিআর ইনস্টল করার প্রস্তাবিত উপায় হল পিপ ব্যবহার করা। একটি মসৃণ ইনস্টলেশনের জন্য অনুগ্রহ করে নিম্নলিখিত কমান্ডটি ব্যবহার করুন

পিপের মাধ্যমে PaddleOCR ইনস্টল করুন

 

পিপের মাধ্যমে প্যাডেলওসিআর ইনস্টল করুন

 pip install paddleocr 

আপনি নিজেও এটি ইনস্টল করতে পারেন; সরাসরি GitHub রিপোজিটরি থেকে সর্বশেষ রিলিজ ফাইল ডাউনলোড করুন।

PaddleOCR API এর মাধ্যমে চিত্র পাঠ্য স্বীকৃতি

ইমেজ টেক্সট রিকগনিশন হল ছবি থেকে টেক্সট বের করার প্রক্রিয়া। এটি বিভিন্ন অ্যাপ্লিকেশন যেমন ডকুমেন্ট স্ক্যানিং, ডিজিটাইজেশন এবং OCR (অপটিক্যাল ক্যারেক্টার রিকগনিশন) এর জন্য একটি দরকারী কৌশল। ওপেন-সোর্স OCR (অপটিক্যাল ক্যারেক্টার রিকগনিশন) API অত্যাধুনিক OCR মডেলের একটি সেট সরবরাহ করে যা স্ক্যান করা নথি, স্ক্রিনশট এবং ফটোগ্রাফ সহ বিভিন্ন চিত্র থেকে পাঠ্য সনাক্ত করতে পারে। লাইব্রেরিটি ইমেজ টেক্সট রিকগনিশন সম্পর্কিত বেশ কিছু গুরুত্বপূর্ণ ফিচার সমর্থন করে যেমন ইমেজ লোড করা, একটি OCR মডেল ইনিশিয়াল করা, ইমেজে টেক্সট রিজিয়ন শনাক্ত করা, ইমেজ থেকে টেক্সট রিকগনাইজ করা, রেজাল্ট থেকে টেক্সট বের করা এবং আরও অনেক কিছু। নিম্নলিখিত উদাহরণটি পাইথন অ্যাপ্লিকেশনগুলির মধ্যে একটি চিত্র থেকে পাঠ্যকে কীভাবে চিনতে হয় তা দেখায়।

পাইথন প্রজেক্টের ভিতরে ইমেজ টেক্সট রিকগনিশন সম্পাদন করুন

import paddleocr
ocr = paddleocr.OCR()

# load an image using the PIL
from PIL import Image

image = Image.open('example.jpg')
result = ocr.ocr(image)

# access the recognized text

for line in result:
    print(line[1][0])
    print(line[1][1])

পাইথন API ব্যবহার করে OCR নথির স্বীকৃতি

ওসিআর-এর জন্য নথির স্বীকৃতি একটি বিশিষ্ট গবেষণার ক্ষেত্র। নথিগুলি আমাদের জীবনে প্রায় প্রতিদিনই ব্যবহৃত হয়। যখন সফ্টওয়্যার বিকাশকারীরা একটি নথিতে OCR প্রয়োগ করে, তখন এটি গুরুত্বপূর্ণ তথ্য পুনরুদ্ধার করতে পারে, ফর্ম ক্ষেত্রগুলি পুনরুদ্ধার করতে পারে, বিন্যাস বিশ্লেষণ করতে পারে, ডিজিটালভাবে সংরক্ষণ করতে পারে এবং পুরানো পাণ্ডুলিপি পড়ার জন্যও। ওপেন-সোর্স PaddleOCR লাইব্রেরি সফটওয়্যার ডেভেলপারদের বিভিন্ন ধরনের নথি লোড করতে, OCR অপারেশন করতে এবং পাইথন কোড ব্যবহার করে এটি থেকে পাঠ্য চিনতে ও বের করতে দেয়। পাঠ্য শনাক্তকরণ খুবই নির্ভুল এবং লাইব্রেরি সহজেই বিশেষ অক্ষর এবং স্থান নির্ভুলভাবে সনাক্ত করতে পারে।

Python API ব্যবহার করে OCR ডকুমেন্ট রিকগনিশনএফ সম্পাদন করুন

img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)

//Displaying the output.

পাইথন অ্যাপের ভিতরে টেবিল রিকগনিশন সাপোর্ট

ওপেন সোর্স PaddleOCR লাইব্রেরি সফটওয়্যার ডেভেলপারদের তাদের Python অ্যাপ্লিকেশনের মধ্যে টেবিলের ডেটা চিনতে সক্ষম করে। টেবিল স্বীকৃতিতে প্রধানত তিনটি মডেল রয়েছে, একক লাইন পাঠ্য সনাক্তকরণ-ডিবি, একক লাইন পাঠ্য স্বীকৃতি-সিআরএনএন এবং টেবিলের কাঠামোর পাশাপাশি সেল স্থানাঙ্ক পূর্বাভাস-SLANet। নীচের উদাহরণটি দেখায় যে কীভাবে টেবিলটি রয়েছে সেই চিত্রটিকে চিনতে হয়। নিচের উদাহরণে দেখানো হয়েছে কিভাবে draw_ocr পদ্ধতিটি ব্যবহার করতে হয় যা ইমেজ, বাউন্ডিং বক্স, টেক্সট, স্কোর এবং ফন্ট ফাইলের পাথ নেয়। এটি বাউন্ডিং বাক্স এবং সনাক্ত করা পাঠ্য সহ একটি চিত্র প্রদান করে। আপনি শো পদ্ধতি ব্যবহার করে ছবি প্রদর্শন করতে পারেন।

পাইথন API এর মাধ্যমে একটি চিত্র লোড করুন এবং এর ভিতরে পাঠ্য সনাক্ত করুন

from paddleocr import PaddleOCR, draw_ocr

# Load the image that contains the table.

# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
    img = f.read()

# Create an instance of the PaddleOCR object
ocr = PaddleOCR()


# Draw the bounding boxes around the detected table cells

boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()

 বাংলা