واجهة برمجة تطبيقات Node.js مجانية لإضافة قدرات OCR إلى مشاريع JavaScript.

مكتبة OCR مفتوحة المصدر لـ Node.js تسمح للمبرمجين بالتعرف على النص واستخراجه من صيغ ملفات متعددة، بما في ذلك الصور (JPEG، PNG)، ملفات PDF، والوثائق مجانًا بعدة لغات.

ما هو Node-Tesseract-OCR؟

في عصرنا الرقمي الحالي، أصبح استخراج النص من الصور والوثائق مهمة حاسمة في مختلف الصناعات، بما في ذلك إدارة الوثائق، معالجة البيانات، والذكاء الاصطناعي. جعلت تقنية التعرف الضوئي على الأحرف (OCR) من الممكن تحويل المستندات الممسوحة ضوئيًا، الصور، وملفات PDF إلى صيغ نصية قابلة للتحرير. Node-Tesseract-OCR هو واجهة برمجة تطبيقات مفتوحة المصدر يدمج قوة محرك Tesseract OCR لتوفير طريقة سلسة وفعّالة لأداء مهام OCR في تطبيقات Node.js.

Node-Tesseract-OCR هو غلاف (wrapper) لـ Node.js لمحرك Tesseract OCR، يتيح لمطوري البرمجيات الاستفادة من ميزات التعرف على النص القوية داخل بيئة Node.js. تُحافظ على هذا الـ API في مستودع GitHub هذا وتقدم مجموعة من الوظائف التي تجعلها مناسبة لمختلف حالات الاستخدام، من استخراج النص البسيط إلى مهام معالجة المستندات المعقدة. يمكن للمطورين استخراج النص من الصور والوثائق بعدة لغات، مما يجعله أداة متعددة الاستخدامات لتطبيقات مختلفة.

توفر واجهة Node-Tesseract-OCR قدرات متقدمة لمعالجة الصور، بما في ذلك تصفية الصور، تغيير الحجم، والقص، لضمان أن النص المستخرج يكون دقيقًا وموثوقًا. تدعم أكثر من 100 لغة، مما يجعلها حلاً متعدد الاستخدامات لمهام OCR في بيئات متنوعة. يمكن للمطورين استخراج النص من الصور، ملفات PDF، والوثائق، وإرجاع النص المستخرج بصيغ متعددة مثل JSON، XML، والنص العادي. تم تصميمها لتكون خفيفة، مرنة، وسهلة الاستخدام، مما يجعلها خيارًا مثاليًا للمطورين الذين يرغبون في إضافة قدرات OCR إلى مشاريعهم. بفضل قدراتها المتقدمة في معالجة الصور، ودعم اللغات، وآليات معالجة الأخطاء، فهي خيار مثالي للمطورين الذين يرغبون في إضافة قدرات OCR إلى مشاريعهم.

نظرة سريعة

نظرة عامة على ميزات Node-Tesseract-OCR.

Features Overview

تنفيذ OCR
إضافة قدرات OCR
التعرف على نص الصورة
تحويل صور النص
نص الخط المعترف به
بحث في PDF
أكثر من 100 لغة
إنشاء تطبيقات OCR
حفظ إلى المتصفح
استخراج النص
دعم متعدد الخيوط

Node-Tesseract-OCR

Node-Tesseract-OCR يدعم صيغ ملفات الصور الشائعة المذكورة أدناه.

Reader

PNG, JPEG, BMP, TIFF, TGA, DICOM

Writer

PNG, JPEG, BMP, TIFF

Node-Tesseract-OCR

استقلالية المنصة

Node-Tesseract-OCR يمكنه العمل مع أي لغة برمجة تعتمد على Java

Java

Node-Tesseract-OCR

البدء مع Node-Tesseract-OCR

الطريقة الموصى بها لتثبيت Node-Tesseract-OCR هي باستخدام npm. يرجى استخدام الأمر التالي لتثبيت سلس

Install Node-Tesseract-OCR via npm

npm install node-tesseract-ocr

يمكنك أيضًا تثبيته يدويًا؛ تحميل أحدث ملفات الإصدار مباشرة من مستودع GitHub .

استخراج النص من الصور في واجهة برمجة تطبيقات Node.js

مكتبة Node-Tesseract-OCR مفتوحة المصدر تجعل من السهل على مطوري البرمجيات إنشاء تطبيقات تقوم تلقائيًا باستخراج النص من الصور داخل تطبيقات Node.js. تدعم استخراج النص من المستندات الممسوحة ضوئيًا، ملفات PDF، صور الكاميرا أو صور الإيصالات. يمكن أن يكون ذلك مفيدًا لإنشاء أرشيفات قابلة للبحث، أتمتة إدخال البيانات، أو معالجة كميات كبيرة من المستندات في قطاعات مثل المالية والرعاية الصحية. إليك مثالًا بسيطًا يوضح كيفية استخراج النص برمجيًا من الصور داخل تطبيقات Node.js.

How to Extract Text from Images inside Node.js Environment?

const tesseract = require("node-tesseract-ocr");

tesseract.recognize("path/to/image.jpg")
  .then(text => {
    console.log("Recognized Text:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

معالجة مسبقة محسنة للصور داخل Node.js

معالجة الصور مسبقًا قبل تطبيق OCR يمكن أن تحسن بشكل كبير من دقة التعرف على النص. تسمح مكتبة Node-Tesseract-OCR المفتوحة المصدر بتقنيات معالجة مسبقة أساسية، مثل تغيير الحجم، التثبيت الثنائي، وإزالة الميل. يمكن تنفيذ هذه الخطوات باستخدام مكتبات Node.js إضافية مثل sharp أو jimp بالتعاون مع Node-Tesseract-OCR. يوضح المثال التالي كيف يستخدم المطورون خطوات المعالجة المسبقة لتحسين التعرف، خاصةً مع الصور ذات الجودة المنخفضة.

How to Apply Preprocessing Steps to Improve Recognition via Node.js API?

const sharp = require("sharp");
const tesseract = require("node-tesseract-ocr");

sharp("path/to/input.jpg")
  .resize(800, 600) // Resize the image
  .greyscale() // Convert to greyscale
  .toBuffer()
  .then(data => {
    return tesseract.recognize(data, { lang: "eng" });
  })
  .then(text => {
    console.log("Preprocessed Image Text:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

نص معترف به بلغات متعددة

إحدى الميزات البارزة في Node-Tesseract-OCR هي دعمه الواسع للغات المتعددة. تدعم مكتبة Tesseract OCR أكثر من 100 لغة، مما يجعلها خيارًا مثاليًا للتطبيقات التي تحتاج إلى معالجة مستندات بلغات مختلفة. يمكن للمطورين تحديد اللغة (اللغات) التي يرغبون في أن يستخدمها Tesseract، مما يحسن من دقة التعرف على النصوص غير الإنجليزية. إليك مثالًا يوضح كيف يمكن للمطورين التعرف على نص بالفرنسية داخل تطبيقات Node.js؟

How to Recognized Text from Image in French via JavaScript API?

const config = {
  lang: "fra", // French language support
  oem: 1,
  psm: 3
};

tesseract.recognize("path/to/french-text-image.jpg", config)
  .then(text => {
    console.log("Recognized Text in French:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });