API Node.js חינמי להוספת יכולות OCR לפרויקטים ב-JS.

ספריית OCR בקוד פתוח ל-Node.js המאפשרת למתכנתים לזהות ולחלץ טקסט ממגוון פורמטים של קבצים, כולל תמונות (JPEG, PNG), PDF ומסמכים, בחינם בריבוי שפות.

מהו Node-Tesseract-OCR?

בעידן הדיגיטלי של היום, חילוץ טקסט מתמונות ומסמכים הפך למשימה קריטית בתעשיות שונות, כולל ניהול מסמכים, עיבוד נתונים ובינה מלאכותית. טכנולוגיית זיהוי תווים אופטי (OCR) מאפשרת להמיר מסמכים סרוקים, תמונות וקבצי PDF לפורמטים של טקסט שניתן לערוך. Node-Tesseract-OCR הוא API בקוד פתוח שמשלב את כוח מנוע ה‑OCR של Tesseract כדי לספק דרך חלקה ויעילה לבצע משימות OCR ביישומי Node.js.

Node-Tesseract-OCR הוא עטיפה ל‑Node.js למנוע ה‑OCR של Tesseract, המאפשרת למפתחי תוכנה לנצל את תכונות זיהוי הטקסט החזקות של Tesseract בסביבת Node.js. ה‑API מתוחזק במאגר GitHub זה ומציע מגוון פונקציות שהופכות אותו למתאים למקרים שונים, החל מחילוץ טקסט פשוט ועד משימות עיבוד מסמכים מורכבות יותר. מפתחים יכולים לחלץ טקסט מתמונות וממסמכים במספר שפות, מה שהופך אותו לכלי רב‑שימושי ליישומים שונים.

ה‑API של Node‑Tesseract‑OCR מספק יכולות מתקדמות לעיבוד תמונות, כולל סינון, שינוי גודל וחיתוך, כדי להבטיח שהטקסט המוחלץ יהיה מדויק ואמין. הוא תומך ביותר מ‑100 שפות, מה שהופך אותו לפתרון גמיש למשימות OCR בסביבות מגוונות. מפתחים יכולים לחלץ טקסט מתמונות, PDF ומסמכים, ולהחזיר את הטקסט בפורמטים שונים כגון JSON, XML וטקסט פשוט. הוא תוכנן להיות קל משקל, גמיש וקל לשימוש, מה שהופך אותו לבחירה אידיאלית למפתחים שרוצים להוסיף יכולות OCR לפרויקטים שלהם. עם יכולות העיבוד המתקדמות, תמיכת השפות ומנגנוני טיפול בשגיאות, הוא בחירה מצוינת למפתחים המעוניינים לשלב OCR ביישומים שלהם.

במבט כולל

סקירה של תכונות Node-Tesseract-OCR.

סקירת תכונות

ביצוע OCR
הוספת יכולות OCR
זיהוי טקסט בתמונה
המרת תמונות של טקסט
זיהוי טקסט גופנים
חיפוש PDF
יותר מ‑100 שפות
יצירת אפליקציות OCR
שמירה לדפדפן
חילוץ טקסט
תמיכה בריבוי תהליכים

Node-Tesseract-OCR

Node-Tesseract-OCR תומך בפורמטים פופולריים של קבצי תמונה המופיעים למטה.

קורא

PNG, JPEG, BMP, TIFF, TGA, DICOM

כותב

PNG, JPEG, BMP, TIFF

Node-Tesseract-OCR

עצמאות פלטפורמה

Node-Tesseract-OCR יכול לעבוד עם כל שפת תכנות מבוססת Java

Java

Node-Tesseract-OCR

התחלה עם Node-Tesseract-OCR

הדרך המומלצת להתקנת Node-Tesseract-OCR היא באמצעות npm. אנא השתמשו בפקודה הבאה להתקנה חלקה

התקנת Node-Tesseract-OCR באמצעות npm

npm install node-tesseract-ocr

ניתן גם להתקין זאת ידנית; הורידו את קבצי השחרור האחרונים ישירות ממאגר GitHub .

חילוץ טקסט מתמונות ב-API של Node.js

ספריית Node-Tesseract-OCR בקוד פתוח מאפשרת למפתחים ליצור יישומים שמחלצים טקסט באופן אוטומטי מתמונות בתוך יישומי Node.js. היא תומכת בחילוץ טקסט ממסמכים סרוקים, PDF, תמונות מצילום מצלמה או תמונות קבלות. זה יכול להיות שימושי ליצירת ארכיונים ניתנים לחיפוש, אוטומציה של הזנת נתונים, או עיבוד נפחי מסמכים גדולים במגזרים כמו פיננסים ובריאות. להלן דוגמה פשוטה שמציגה כיצד לחלץ טקסט מתמונות בתוכניות Node.js.

איך לחלץ טקסט מתמונות בסביבת Node.js?

const tesseract = require("node-tesseract-ocr");

tesseract.recognize("path/to/image.jpg")
  .then(text => {
    console.log("Recognized Text:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

קדם עיבוד תמונה משופר ב-Node.js

קדם עיבוד תמונות לפני יישום OCR יכול לשפר משמעותית את דיוק זיהוי הטקסט. ספריית Node-Tesseract-OCR בקוד פתוח מאפשרת טכניקות קדם עיבוד בסיסיות, כגון שינוי גודל, בינריזציה והסרת הטייה. שלבי קדם העיבוד הללו ניתנים למימוש באמצעות ספריות Node.js נוספות כמו sharp או jimp בשילוב עם Node-Tesseract-OCR. הדוגמה הבאה מציגה כיצד מפתחים משתמשים בשלבי קדם עיבוד לשיפור הזיהוי, במיוחד עם תמונות באיכות נמוכה.

איך ליישם שלבי קדם עיבוד לשיפור הזיהוי דרך API של Node.js?

const sharp = require("sharp");
const tesseract = require("node-tesseract-ocr");

sharp("path/to/input.jpg")
  .resize(800, 600) // Resize the image
  .greyscale() // Convert to greyscale
  .toBuffer()
  .then(data => {
    return tesseract.recognize(data, { lang: "eng" });
  })
  .then(text => {
    console.log("Preprocessed Image Text:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });

טקסט מזוהה ברב‑שפות

אחת התכונות הבולטות של Node-Tesseract-OCR היא התמיכה הרחבה ברב‑שפות. ספריית Tesseract OCR תומכת ביותר מ‑100 שפות, מה שהופך אותה לבחירה אידיאלית ליישומים שצריכים לעבד מסמכים במגוון שפות. מפתחים יכולים לציין את השפה/השפות שבהן הם רוצים שה‑Tesseract יעבוד, מה שמשפר את דיוק הזיהוי עבור טקסטים שאינם באנגלית. להלן דוגמה שמציגה כיצד מפתחים יכולים לזהות טקסט בצרפתית בתוך יישומי Node.js?

איך לזהות טקסט מתמונה בצרפתית דרך API של JavaScript?

const config = {
  lang: "fra", // French language support
  oem: 1,
  psm: 3
};

tesseract.recognize("path/to/french-text-image.jpg", config)
  .then(text => {
    console.log("Recognized Text in French:", text);
  })
  .catch(error => {
    console.error("Error:", error.message);
  });