1. สินค้า
  2.   OCR
  3.   PHP
  4.   Tesseract OCR for PHP
 
  

Open Source PHP Library สำหรับการดำเนินการ OCR บนรูปภาพ

API การรู้จำอักขระเชิงแสง PHP ฟรีเพื่อดำเนินการ OCR กับรูปภาพ เอกสารที่สแกน และ PDF โดยใช้ไลบรารี Tesseract PHP

ในบรรดาเครื่องมือ OCR ที่มีอยู่มากมาย Tesseract OCR มีความโดดเด่นในฐานะหนึ่งใน API ที่ทรงพลังและอเนกประสงค์ที่สุดที่ช่วยให้นักพัฒนาซอฟต์แวร์สามารถสร้างแอปพลิเคชันสำหรับการจดจำและแยกข้อความจากแหล่งภาพยอดนิยมต่างๆ Tesseract OCR สำหรับ PHP เป็น wrapper ที่มีประโยชน์มากในการทำงานร่วมกับ Tesseract OCR ภายในแอปพลิเคชัน PHP โอเพ่นซอร์ส Tesseract OCR สำหรับไลบรารี PHP สามารถเพิ่มความแม่นยำของ OCR ได้โดยการประมวลผลภาพล่วงหน้า สามารถใช้เทคนิคต่างๆ เช่น การปรับขนาด ไบนาไรเซชัน การกำจัดจุดรบกวน และการเย็บโต๊ะ เพื่อเพิ่มการมองเห็นข้อความ และลบสิ่งแปลกปลอมที่อาจขัดขวางการจดจำออก

Tesseract OCR สำหรับไลบรารี PHP นำเสนอคุณสมบัติขั้นสูงและตัวเลือกการปรับแต่งมากมายเพื่อปรับปรุงผลลัพธ์ OCR ภายในแอปพลิเคชัน PHP เช่น การจัดการเอกสารหลายภาษา การระบุภาษาที่ต้องการในระหว่างการเริ่มต้น OCR เพื่อปรับปรุงความแม่นยำสำหรับภาษาเฉพาะ รองรับโหมดการแบ่งส่วนหน้า ปรับปรุงความแม่นยำในการจดจำสำหรับแอปพลิเคชันเฉพาะทาง การสนับสนุนการฝึกอบรมเกี่ยวกับแบบอักษรหรือสัญลักษณ์ที่กำหนดเอง หรือรูปแบบข้อความเฉพาะ ปรับปรุงการเข้าถึง การแปลงเอกสารเป็นดิจิทัล การวิเคราะห์ข้อความ การดึงข้อมูล และอื่นๆ อีกมากมาย

ใช้ตัวห่อ Tesseract PHP เพื่อส่งภาพที่ประมวลผลล่วงหน้าไปยังกลไก Tesseract OCR wrapper จัดเตรียมฟังก์ชันเพื่อดำเนินการ OCR และดึงข้อความที่เป็นที่รู้จักออกมา ข้อความที่แยกออกมาอาจต้องมีขั้นตอนหลังการประมวลผลเพิ่มเติม เช่น การตรวจตัวสะกด การจัดรูปแบบ หรือการแก้ไขเฉพาะภาษา ไลบรารี PHP เช่น Symfony/string หรือ Text_LanguageDetect สามารถใช้เพื่อวัตถุประสงค์เหล่านี้ได้ ด้วยการผสานรวม Tesseract OCR เข้ากับโปรเจ็กต์ PHP ของคุณ นักพัฒนาซอฟต์แวร์จึงสามารถปรับปรุงการประมวลผลเอกสาร ทำให้การแยกข้อมูลเป็นแบบอัตโนมัติ และปลดล็อกประสิทธิภาพและการเข้าถึงระดับใหม่ในแอปพลิเคชันของตน

Previous Next

เริ่มต้นใช้งาน Tesseract OCR สำหรับ PHP

วิธีแนะนำในการติดตั้ง Tesseract OCR สำหรับ PHP คือการใช้ Composer โปรดใช้คำสั่งต่อไปนี้เพื่อการติดตั้งที่ราบรื่น

ติดตั้ง Tesseract OCR สำหรับ PHP ผ่าน Composer

$ composer require thiagoalessio/tesseract_ocr 

ติดตั้ง Tesseract OCR สำหรับ PHP ผ่าน Github

git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git 

คุณสามารถดาวน์โหลดไลบรารี่ที่ใช้ร่วมกันที่คอมไพล์แล้วได้จากที่เก็บ Github

แยกข้อความจากรูปภาพภายในแอป PHP

Tesseract OCR แบบโอเพ่นซอร์สสำหรับไลบรารี PHP ได้จัดเตรียมคุณสมบัติที่มีประโยชน์บางประการสำหรับการแยกข้อความจากรูปภาพโดยใช้คำสั่ง PHP ไลบรารีมีโหมดการแบ่งส่วนหน้าที่แตกต่างกันเพื่อรองรับเค้าโครงและการจัดเรียงข้อความที่หลากหลาย เริ่มกระบวนการแยกข้อมูลโดยการโหลดรูปภาพหรือเอกสารที่มีข้อความที่คุณต้องการแยก ใช้ตัวห่อ Tesseract PHP เพื่อส่งภาพที่ประมวลผลล่วงหน้าไปยังกลไก Tesseract OCR wrapper จัดเตรียมฟังก์ชันเพื่อดำเนินการ OCR และดึงข้อความที่เป็นที่รู้จักออกมา ตัวอย่างต่อไปนี้แสดงกระบวนการพื้นฐานของการโหลดรูปภาพและแยกข้อความโดยใช้คำสั่ง PHP

จะโหลดรูปภาพและแยกข้อความโดยใช้โค้ด PHP ได้อย่างไร

use TesseractOCR\TesseractOCR;

$imagePath = '/path/to/your/image.jpg';

$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition

$text = $tesseract->run();
echo $text;

การจัดการเอาต์พุต OCR ภายในแอป PHP

Tesseract OCR แบบโอเพ่นซอร์สสำหรับไลบรารี PHP ได้รวมคุณสมบัติที่มีประโยชน์มากสำหรับการบันทึกและทำงานกับข้อความเอาต์พุตของ OCR ภายในแอปพลิเคชัน PHP ช่วยให้สามารถบันทึกข้อความในรูปแบบยอดนิยมบางรูปแบบเช่น PDF, TXT, HTML, Word และอีกมากมาย ช่วยให้สามารถจัดการกับข้อความที่ได้รับการยอมรับซึ่งดึงมาจากรูปภาพ คุณอาจต้องดำเนินการหรือวิเคราะห์ข้อความที่แยกออกมาเพิ่มเติม ทั้งนี้ขึ้นอยู่กับข้อกำหนดของแอปพลิเคชันของคุณ งานทั่วไป ได้แก่ การตรวจสอบข้อมูล การล้างข้อความ การตรวจสอบตัวสะกด การจัดรูปแบบ บูรณาการกับระบบอื่น ๆ สำหรับการประมวลผลขั้นสูงหรือการแก้ไขเฉพาะภาษา นักพัฒนาซอฟต์แวร์สามารถวิเคราะห์ข้อมูลข้อความจำนวนมากที่ดึงมาจากเอกสาร ฟีดโซเชียลมีเดีย หรือคำติชมของลูกค้าได้อย่างง่ายดาย เพื่อให้ได้ข้อมูลเชิงลึก การวิเคราะห์ความรู้สึก หรือการสร้างแบบจำลองหัวข้อ

ดึงข้อมูลรูปภาพ ขนาด และบันทึกในรูปแบบ PDF ผ่าน PHP API

//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();

$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();


// Save the Output to PDF file

echo (new TesseractOCR('img.png'))
    ->configFile('pdf')
    ->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
    ->run();

 ไทย