Open Source JavaScript API เพื่อเพิ่มและจัดการ OCR ไปยัง Web Apps
ไลบรารี JavaScript ฟรีชั้นนำสำหรับการเพิ่มฟังก์ชันการรู้จำอักขระด้วยแสง (OCR) ให้กับ JS Web Apps และแปลงรูปภาพข้อความที่พิมพ์หรือเขียนด้วยลายมือเป็นข้อความที่เครื่องอ่านได้ฟรี
Tesseract.js เป็นไลบรารี JavaScript แบบโอเพ่นซอร์สที่มีประโยชน์มาก ซึ่งช่วยให้นักพัฒนาซอฟต์แวร์สามารถรวมฟังก์ชันการรู้จำอักขระด้วยภาพ (OCR) ภายในแอปพลิเคชันเว็บของตนโดยใช้ความพยายามและต้นทุนขั้นต่ำ OCR เป็นกระบวนการแปลงรูปภาพของข้อความที่พิมพ์หรือเขียนด้วยลายมือให้เป็นข้อความที่เครื่องอ่านได้ Tesseract.js เป็นพอร์ตของเครื่องมือ Tesseract OCR ยอดนิยม ซึ่งเดิมพัฒนาโดย Hewlett-Packard ในปี 1980 และดูแลโดย Google ในเวลาต่อมา Tesseract.js สามารถจดจำได้มากกว่า 100 ภาษา ทำให้เป็นเครื่องมือที่มีประสิทธิภาพสำหรับนักพัฒนาที่ต้องการเพิ่มฟังก์ชัน OCR ให้กับเว็บแอปพลิเคชันของตน
Tesseract.js จัดการได้ง่ายมากและสามารถใช้งานได้หลากหลาย เช่น การแยกข้อความออกจากเอกสารที่สแกน ใบเสร็จรับเงิน และนามบัตร ทำให้งานป้อนข้อมูลอัตโนมัติ ตลอดจนปรับปรุงฟังก์ชันการค้นหาภายในเว็บแอปพลิเคชัน ข้อดีที่สำคัญประการหนึ่งของ Tesseract.js คือความสามารถในการจดจำข้อความ แม้ว่าภาพที่ป้อนจะมีคุณภาพหรือความละเอียดต่ำก็ตาม ห้องสมุดใช้อัลกอริธึมการเรียนรู้ของเครื่องเพื่อปรับปรุงความแม่นยำของผลลัพธ์ OCR นอกจากนี้ยังสามารถทำการวิเคราะห์เค้าโครงหน้าและตรวจจับบริเวณที่สนใจภายในรูปภาพได้อีกด้วย
Tesseract.js กำลังได้รับความนิยมเนื่องจากใช้งานง่ายและมีความสามารถ OCR อันทรงพลัง และสามารถทำงานได้อย่างราบรื่นในเบราว์เซอร์หรือบนเซิร์ฟเวอร์ที่มี NodeJS โดยมี API แบบง่ายที่ช่วยให้นักพัฒนาซอฟต์แวร์สามารถกำหนดค่าตัวเลือก OCR เช่น ภาษา โหมดการแบ่งส่วนหน้า และอักขระที่อนุญาตพิเศษ ความสามารถในการจดจำข้อความจากรูปภาพคุณภาพต่ำและการรองรับหลายภาษา ทำให้เป็นเครื่องมือที่มีค่าสำหรับแอปพลิเคชันที่หลากหลาย และเป็นตัวเลือกที่ยอดเยี่ยมสำหรับนักพัฒนาที่ต้องการเพิ่ม OCR ให้กับแอปพลิเคชันบนเว็บของตน
เริ่มต้นใช้งาน Tesseract.js
วิธีที่แนะนำในการติดตั้ง Tesseract.js คือการใช้ npm โปรดใช้คำสั่งต่อไปนี้เพื่อการติดตั้งที่ราบรื่น
ติดตั้ง Tesseract.jsvia npm
npm install tesseract.js
คุณยังสามารถติดตั้งได้ด้วยตนเอง ดาวน์โหลดไฟล์รุ่นล่าสุดได้โดยตรงจากที่เก็บ GitHub
แปลงรูปภาพเป็นข้อความผ่าน JavaScript API
ไลบรารี JavaScript แบบโอเพ่นซอร์ส Tesseract.js ช่วยให้นักพัฒนาซอฟต์แวร์ทำงานกับรูปภาพประเภทต่างๆ เช่น BMP, JPG, PNG, PBM, WebP และอื่นๆ อีกมากมายได้อย่างง่ายดาย ไลบรารีรองรับการแยกข้อความจากรูปภาพเพื่อทำให้การประมวลผลข้อความบนรูปภาพ, PDF และเอกสารที่สแกนเป็นแบบอัตโนมัติ ตัวอย่างต่อไปนี้แสดงวิธีการโหลดรูปภาพและแยกข้อความจากรูปภาพด้วยโค้ดเพียงไม่กี่บรรทัด อาร์กิวเมนต์ภาษาใช้เพื่อกำหนดข้อมูลภาษาที่ได้รับการฝึกอบรมเพื่อใช้ในการประมวลผลภาพ นักพัฒนาซอฟต์แวร์สามารถใช้หลายภาษาได้ที่นี่
จะแปลงรูปภาพเป็นข้อความโดยใช้ JavaScript API ได้อย่างไร
Tesseract.recognize(
image,language,
{
logger: m => console.log(m)
}
)
.catch (err => {
console.error(err);
})
.then(result => {
console.log(result);
})
}
อ่านขอบเขตรูปภาพและแยกข้อความผ่าน JS API
ไลบรารี JavaScript แบบโอเพ่นซอร์สได้รวมคุณสมบัติที่มีประโยชน์มากสำหรับการอ่านพื้นที่เฉพาะภายในรูปภาพและรวบรวมข้อมูลภายในแอปพลิเคชัน JavaScript API รองรับการจับพื้นที่ภาพและพยายามจดจำข้อความภายในขอบเขตนี้โดยใช้กลไก OCR ภายในอันทรงพลัง ตัวอย่างต่อไปนี้แสดงให้เห็นว่านักพัฒนาซอฟต์แวร์สามารถระบุ URL ให้กับรูปภาพได้อย่างไร และ API สามารถตรวจจับและจดจำข้อความในพื้นที่ที่เลือกได้อย่างง่ายดาย
อ่านและจดจำข้อความในพื้นที่ที่เลือกของรูปภาพผ่าน JS API
const { createWorker } = require('tesseract.js');
const worker = await createWorker();
const rectangle = { left: 0, top: 0, width: 500, height: 250 };
(async () => {
await worker.loadLanguage('eng');
await worker.initialize('eng');
const { data: { text } } = await worker.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png', { rectangle });
console.log(text);
await worker.terminate();
})();