JS প্রকল্পে OCR সক্ষমতা যোগ করার জন্য ফ্রি Node.js API।

ওপেন সোর্স Node.js OCR লাইব্রেরি যা প্রোগ্রামারদের বিভিন্ন ফাইল ফরম্যাট, যেমন ইমেজ (JPEG, PNG), PDF এবং ডকুমেন্ট থেকে টেক্সট স্বীকৃতি ও এক্সট্র্যাক্ট করতে সাহায্য করে, বহু ভাষায় ফ্রি।

Node-Tesseract-OCR কী?

আজকের ডিজিটাল যুগে, ইমেজ এবং ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করা বিভিন্ন শিল্পে একটি গুরুত্বপূর্ণ কাজ হয়ে দাঁড়িয়েছে, যার মধ্যে ডকুমেন্ট ম্যানেজমেন্ট, ডেটা প্রসেসিং এবং কৃত্রিম বুদ্ধিমত্তা অন্তর্ভুক্ত। অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) প্রযুক্তি স্ক্যান করা ডকুমেন্ট, ইমেজ এবং PDF গুলোকে সম্পাদনযোগ্য টেক্সট ফরম্যাটে রূপান্তর করা সম্ভব করেছে। Node-Tesseract-OCR একটি ওপেন-সোর্স API যা Tesseract OCR ইঞ্জিনের শক্তি ব্যবহার করে Node.js অ্যাপ্লিকেশনে OCR কাজগুলোকে সহজ ও কার্যকরভাবে সম্পাদন করার উপায় প্রদান করে।

Node-Tesseract-OCR হল Tesseract OCR ইঞ্জিনের জন্য একটি Node.js র্যাপার, যা সফটওয়্যার ডেভেলপারদের Node.js পরিবেশে Tesseract-এর শক্তিশালী টেক্সট রিকগনিশন ফিচার ব্যবহার করতে সক্ষম করে। এই APIটি গিটহাব রিপোজিটরিতে রক্ষণাবেক্ষণ করা হয় এবং বিভিন্ন ব্যবহারিক ক্ষেত্রে উপযোগী ফাংশনালিটি প্রদান করে, সহজ টেক্সট এক্সট্র্যাকশন থেকে জটিল ডকুমেন্ট প্রসেসিং পর্যন্ত। সফটওয়্যার ডেভেলপাররা একাধিক ভাষায় ইমেজ এবং ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করতে পারেন, যা এটিকে বহুমুখী টুল করে তোলে।

Node-Tesseract-OCR API উন্নত ইমেজ প্রসেসিং ক্ষমতা প্রদান করে, যার মধ্যে ইমেজ ফিল্টারিং, রিসাইজিং এবং ক্রপিং অন্তর্ভুক্ত, যাতে এক্সট্র্যাক্টেড টেক্সটের নির্ভুলতা ও বিশ্বাসযোগ্যতা নিশ্চিত হয়। এটি ১০০টিরও বেশি ভাষা সমর্থন করে, যা বিভিন্ন পরিবেশে OCR কাজের জন্য একটি বহুমুখী সমাধান। সফটওয়্যার ডেভেলপাররা ইমেজ, PDF এবং ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করে তা JSON, XML বা প্লেইন টেক্সটের মতো বিভিন্ন ফরম্যাটে পেতে পারেন। এটি হালকা, নমনীয় এবং ব্যবহার সহজভাবে ডিজাইন করা হয়েছে, যা ডেভেলপারদের তাদের প্রকল্পে OCR সক্ষমতা যোগ করার জন্য আদর্শ পছন্দ করে তোলে। উন্নত ইমেজ প্রসেসিং, ভাষা সমর্থন এবং ত্রুটি হ্যান্ডলিং মেকানিজমের সঙ্গে, এটি ডেভেলপারদের জন্য একটি চমৎকার পছন্দ।

এক নজরে

Node-Tesseract-OCR বৈশিষ্ট্যের একটি সংক্ষিপ্ত বিবরণ।

বৈশিষ্ট্য সংক্ষিপ্তসার

OCR সম্পাদন করুন
OCR সক্ষমতা যোগ করুন
ইমেজ টেক্সট স্বীকৃতি দিন
টেক্সটের ইমেজ রূপান্তর করুন
ফন্ট টেক্সট স্বীকৃতি দিন
PDF অনুসন্ধান করুন
১০০টিরও বেশি ভাষা সমর্থন
OCR অ্যাপ তৈরি করুন
ব্রাউজারে সংরক্ষণ করুন
টেক্সট এক্সট্র্যাক্ট করুন
মাল্টি-থ্রেডিং সমর্থন

Node-Tesseract-OCR

Node-Tesseract-OCR নিচের জনপ্রিয় ইমেজ ফাইল ফরম্যাটগুলো সমর্থন করে।

রিডার

PNG, JPEG, BMP, TIFF, TGA, DICOM

রাইটার

PNG, JPEG, BMP, TIFF

Node-Tesseract-OCR

প্ল্যাটফর্ম স্বতন্ত্রতা

Node-Tesseract-OCR যেকোনো জাভা-ভিত্তিক প্রোগ্রামিং ভাষার সঙ্গে কাজ করতে পারে

Java

Node-Tesseract-OCR

Node-Tesseract-OCR দিয়ে শুরু করা

Node-Tesseract-OCR ইনস্টল করার সর্বোত্তম পদ্ধতি হল npm ব্যবহার করা। মসৃণ ইনস্টলেশনের জন্য নিচের কমান্ডটি ব্যবহার করুন

npm এর মাধ্যমে Node-Tesseract-OCR ইনস্টল করুন

npm install node-tesseract-ocr

আপনি ম্যানুয়ালি ইনস্টল করতে পারেন; সর্বশেষ রিলিজ ফাইলগুলো সরাসরি GitHub রিপোজিটরি থেকে ডাউনলোড করুন।

Node.js API তে ইমেজ থেকে টেক্সট এক্সট্র্যাকশন

ওপেন সোর্স Node-Tesseract-OCR লাইব্রেরি সফটওয়্যার ডেভেলপারদেরকে Node.js অ্যাপ্লিকেশনে স্বয়ংক্রিয়ভাবে ইমেজ থেকে টেক্সট এক্সট্র্যাক্ট করার জন্য সহজ করে দেয়। এটি স্ক্যান করা ডকুমেন্ট, PDF, ক্যামেরা ফটো বা রসিদের ফটো থেকে টেক্সট এক্সট্র্যাক্ট সমর্থন করে। এটি অনুসন্ধানযোগ্য আর্কাইভ তৈরি, ডেটা এন্ট্রি স্বয়ংক্রিয়করণ, অথবা আর্থিক ও স্বাস্থ্যসেবা মতো সেক্টরে বড় পরিমাণে ডকুমেন্ট প্রসেসিংয়ের জন্য উপযোগী। নিচে একটি সহজ উদাহরণ দেওয়া হয়েছে যা দেখায় কীভাবে Node.js অ্যাপ্লিকেশনে প্রোগ্রাম্যাটিকভাবে ইমেজ থেকে টেক্সট এক্সট্র্যাক্ট করা যায়।

Node.js পরিবেশে ইমেজ থেকে টেক্সট কীভাবে এক্সট্র্যাক্ট করবেন?

const tesseract = require("node-tesseract-ocr");

tesseract.recognize("path/to/image.jpg")
  .then(text => {
    console.log("Recognized Text:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

Node.js এ উন্নত ইমেজ প্রিপ্রসেসিং

OCR প্রয়োগের আগে ইমেজ প্রিপ্রসেসিং টেক্সট রিকগনিশনের নির্ভুলতা উল্লেখযোগ্যভাবে বাড়াতে পারে। ওপেন সোর্স Node-Tesseract-OCR লাইব্রেরি রিসাইজিং, বাইনারাইজেশন এবং ডেস্কিউইংয়ের মতো মৌলিক প্রিপ্রসেসিং টেকনিক সমর্থন করে। এই প্রিপ্রসেসিং ধাপগুলো অতিরিক্ত Node.js লাইব্রেরি যেমন sharp বা jimp ব্যবহার করে Node-Tesseract-OCR এর সঙ্গে সংযুক্ত করা যায়। নিচের উদাহরণটি দেখায় কীভাবে সফটওয়্যার ডেভেলপাররা নিম্নমানের ইমেজের ক্ষেত্রে রিকগনিশন উন্নত করতে প্রিপ্রসেসিং ধাপ ব্যবহার করতে পারেন।

Node.js API এর মাধ্যমে রিকগনিশন উন্নত করতে প্রিপ্রসেসিং ধাপ কীভাবে প্রয়োগ করবেন?

const sharp = require("sharp");
const tesseract = require("node-tesseract-ocr");

sharp("path/to/input.jpg")
  .resize(800, 600) // Resize the image
  .greyscale() // Convert to greyscale
  .toBuffer()
  .then(data => {
    return tesseract.recognize(data, { lang: "eng" });
  })
  .then(text => {
    console.log("Preprocessed Image Text:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

বহু ভাষায় স্বীকৃত টেক্সট

Node-Tesseract-OCR এর অন্যতম প্রধান বৈশিষ্ট্য হল এর বিস্তৃত বহু-ভাষা সমর্থন। Tesseract OCR লাইব্রেরি ১০০টিরও বেশি ভাষা সমর্থন করে, যা বিভিন্ন ভাষায় ডকুমেন্ট প্রসেসিং প্রয়োজনীয় অ্যাপ্লিকেশনের জন্য আদর্শ। সফটওয়্যার ডেভেলপাররা Tesseract যে ভাষা ব্যবহার করবে তা নির্দিষ্ট করতে পারেন, যা ইংরেজি নয় এমন টেক্সটের রিকগনিশন নির্ভুলতা বাড়ায়। নিচে একটি উদাহরণ দেওয়া হয়েছে যা দেখায় কীভাবে ডেভেলপাররা Node.js অ্যাপ্লিকেশনে ফরাসি ভাষায় টেক্সট স্বীকৃতি পেতে পারেন?

JavaScript API ব্যবহার করে ফরাসি ভাষায় ইমেজ থেকে টেক্সট কীভাবে স্বীকৃত করবেন?

const config = {
  lang: "fra", // French language support
  oem: 1,
  psm: 3
};

tesseract.recognize("path/to/french-text-image.jpg", config)
  .then(text => {
    console.log("Recognized Text in French:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });