Open Source Python API เพื่อรวมความสามารถ OCR
ไลบรารี Open Source Python ที่ช่วยให้นักพัฒนาซอฟต์แวร์สามารถรวมความสามารถในการรู้จำอักขระด้วยแสง (OCR) เข้ากับแอปพลิเคชันของตนได้อย่างง่ายดาย
PaddleOCR เป็นไลบรารี Python แบบโอเพ่นซอร์สที่ทรงพลัง ซึ่งช่วยให้นักพัฒนาซอฟต์แวร์สามารถรวมความสามารถในการรู้จำอักขระด้วยแสง (OCR) เข้ากับแอปพลิเคชัน Python ของตนได้อย่างง่ายดาย สร้างขึ้นบน PaddlePaddle ซึ่งเป็นแพลตฟอร์มการเรียนรู้เชิงลึกแบบโอเพ่นซอร์ส และใช้โมเดลการเรียนรู้เชิงลึกที่ล้ำสมัยเพื่อให้ได้ความแม่นยำและประสิทธิภาพสูง PaddleOCR ทำให้กระบวนการ OCR ง่ายขึ้นโดยจัดให้มี API ระดับสูงที่สรุปรายละเอียดระดับต่ำจำนวนมาก ทำให้นักพัฒนาสามารถเพิ่มความสามารถ OCR ให้กับแอปพลิเคชันของตนได้อย่างง่ายดาย
PaddleOCR ได้ให้การสนับสนุนภาษาและสคริปต์ที่หลากหลายอย่างสมบูรณ์ ปัจจุบันรองรับภาษาต่างๆ มากกว่า 80 ภาษา รวมถึงอารบิก จีน อังกฤษ ฝรั่งเศส เยอรมัน ญี่ปุ่น เกาหลี รัสเซีย สเปน และอื่นๆ อีกมากมาย ทำให้เป็นเครื่องมืออันมีค่าสำหรับนักพัฒนาที่ต้องการทำงานกับเนื้อหาหลายภาษา นอกเหนือจากความสามารถ OCR อันทรงพลังแล้ว ไลบรารียังมียูทิลิตี้ที่มีประโยชน์อีกมากมายสำหรับการทำงานกับรูปภาพและข้อความ ตัวอย่างเช่น มีเครื่องมือสำหรับการประมวลผลภาพล่วงหน้า เช่น การพับโต๊ะและการแปลงสองด้าน รวมถึงเครื่องมือหลังการประมวลผลเพื่อปรับปรุงความแม่นยำของเอาต์พุต OCR
PaddleOCR มี OCR ที่แตกต่างกันหลายรุ่น โดยแต่ละรุ่นได้รับการปรับให้เหมาะกับกรณีการใช้งานที่แตกต่างกัน ตัวอย่างเช่น โมเดลการตรวจจับข้อความถูกใช้เพื่อค้นหาและแยกขอบเขตข้อความจากรูปภาพ ในขณะที่โมเดลการรู้จำข้อความใช้เพื่อจดจำข้อความจริงภายในขอบเขตเหล่านั้น นอกจากนี้ยังมีฟีเจอร์ Model Ensemble ที่ช่วยให้นักพัฒนาสามารถรวมหลายโมเดลเข้าด้วยกันเพื่อให้ได้ความแม่นยำสูงยิ่งขึ้น โดยรวมแล้ว PaddleOCR เป็นไลบรารีที่ทรงพลังและใช้งานง่ายสำหรับเพิ่มความสามารถ OCR ให้กับแอปพลิเคชัน Python ของคุณ การรองรับภาษาและสคริปต์ที่หลากหลาย รวมถึงโมเดลที่ปรับแต่งได้และเครื่องมือหลังการประมวลผล ทำให้เป็นเครื่องมือที่มีค่าสำหรับนักพัฒนาที่ทำงานกับ OCR
เริ่มต้นใช้งาน PaddleOCR
วิธีที่แนะนำในการติดตั้ง PaddleOCR คือการใช้ pip โปรดใช้คำสั่งต่อไปนี้เพื่อการติดตั้งที่ราบรื่น
ติดตั้ง PaddleOCR ผ่าน pip
ติดตั้ง PaddleOCR ผ่าน pip
pip install paddleocr
คุณยังสามารถติดตั้งได้ด้วยตนเอง ดาวน์โหลดไฟล์รุ่นล่าสุดได้โดยตรงจากที่เก็บ GitHub
การจดจำข้อความรูปภาพผ่าน PaddleOCR API
การจดจำข้อความรูปภาพเป็นกระบวนการแยกข้อความออกจากรูปภาพ เป็นเทคนิคที่มีประโยชน์สำหรับการใช้งานต่างๆ เช่น การสแกนเอกสาร การแปลงเป็นดิจิทัล และ OCR (Optical Character Recognition) OCR (Optical Character Recognition) API แบบโอเพ่นซอร์สมอบชุดโมเดล OCR ที่ล้ำสมัยซึ่งสามารถจดจำข้อความจากรูปภาพต่างๆ รวมถึงเอกสารที่สแกน ภาพหน้าจอ และรูปถ่าย ไลบรารีรองรับคุณสมบัติสำคัญหลายประการที่เกี่ยวข้องกับการรู้จำข้อความของรูปภาพ เช่น การโหลดรูปภาพ เริ่มต้นโมเดล OCR ระบุขอบเขตข้อความในรูปภาพ จดจำข้อความจากรูปภาพ การแยกข้อความออกจากผลลัพธ์ และอื่นๆ อีกมากมาย ตัวอย่างต่อไปนี้แสดงวิธีการจดจำข้อความจากรูปภาพภายในแอปพลิเคชัน Python
ดำเนินการจดจำข้อความรูปภาพภายในโครงการ Python
import paddleocr
ocr = paddleocr.OCR()
# load an image using the PIL
from PIL import Image
image = Image.open('example.jpg')
result = ocr.ocr(image)
# access the recognized text
for line in result:
print(line[1][0])
print(line[1][1])
การรับรู้เอกสาร OCR โดยใช้ Python API
การจดจำเอกสารเป็นหนึ่งในงานวิจัยที่โดดเด่นสำหรับ OCR เอกสารถูกใช้เกือบทุกวันในชีวิตของเรา เมื่อนักพัฒนาซอฟต์แวร์ใช้ OCR กับเอกสาร ซอฟต์แวร์สามารถดึงข้อมูลสำคัญ ดึงข้อมูลฟิลด์แบบฟอร์ม วิเคราะห์เค้าโครง จัดเก็บแบบดิจิทัล และยังใช้สำหรับอ่านต้นฉบับเก่าอีกด้วย ไลบรารี PaddleOCR แบบโอเพ่นซอร์สช่วยให้นักพัฒนาซอฟต์แวร์สามารถโหลดเอกสารประเภทต่างๆ ดำเนินการ OCR ตลอดจนจดจำและแยกข้อความจากเอกสารโดยใช้โค้ด Python การจดจำข้อความมีความแม่นยำมากและไลบรารีสามารถตรวจจับอักขระพิเศษและช่องว่างได้อย่างแม่นยำ
ดำเนินการจดจำเอกสาร OCRF โดยใช้ Python API
img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)
//Displaying the output.
รองรับการจดจำตารางภายในแอป Python
ไลบรารีโอเพ่นซอร์ส PaddleOCR ช่วยให้นักพัฒนาซอฟต์แวร์สามารถจดจำข้อมูลของตารางภายในแอปพลิเคชัน Python ของตนได้ การจดจำตารางส่วนใหญ่ประกอบด้วยสามโมเดล ได้แก่ การตรวจจับข้อความบรรทัดเดียว - DB, การจดจำข้อความบรรทัดเดียว - CRNN และโครงสร้างตาราง เช่นเดียวกับการทำนายพิกัดเซลล์ - SLANet ตัวอย่างต่อไปนี้แสดงวิธีการจดจำรูปภาพที่มีตาราง ตัวอย่างต่อไปนี้แสดงวิธีการใช้เมธอด Draw_ocr ซึ่งรับรูปภาพ กล่องขอบ ข้อความ คะแนน และเส้นทางไปยังไฟล์ฟอนต์ ส่งคืนรูปภาพพร้อมกรอบขอบและข้อความที่ตรวจพบ คุณสามารถแสดงภาพโดยใช้วิธีการแสดง
โหลดรูปภาพและตรวจจับข้อความภายในรูปภาพผ่าน Python API
from paddleocr import PaddleOCR, draw_ocr
# Load the image that contains the table.
# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
img = f.read()
# Create an instance of the PaddleOCR object
ocr = PaddleOCR()
# Draw the bounding boxes around the detected table cells
boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()