Open Source Python API เพื่อรวมความสามารถ OCR

ไลบรารี Open Source Python ที่ช่วยให้นักพัฒนาซอฟต์แวร์สามารถรวมความสามารถในการรู้จำอักขระด้วยแสง (OCR) เข้ากับแอปพลิเคชันของตนได้อย่างง่ายดาย

PaddleOCR เป็นไลบรารี Python แบบโอเพ่นซอร์สที่ทรงพลัง ซึ่งช่วยให้นักพัฒนาซอฟต์แวร์สามารถรวมความสามารถในการรู้จำอักขระด้วยแสง (OCR) เข้ากับแอปพลิเคชัน Python ของตนได้อย่างง่ายดาย สร้างขึ้นบน PaddlePaddle ซึ่งเป็นแพลตฟอร์มการเรียนรู้เชิงลึกแบบโอเพ่นซอร์ส และใช้โมเดลการเรียนรู้เชิงลึกที่ล้ำสมัยเพื่อให้ได้ความแม่นยำและประสิทธิภาพสูง PaddleOCR ทำให้กระบวนการ OCR ง่ายขึ้นโดยจัดให้มี API ระดับสูงที่สรุปรายละเอียดระดับต่ำจำนวนมาก ทำให้นักพัฒนาสามารถเพิ่มความสามารถ OCR ให้กับแอปพลิเคชันของตนได้อย่างง่ายดาย

PaddleOCR ได้ให้การสนับสนุนภาษาและสคริปต์ที่หลากหลายอย่างสมบูรณ์ ปัจจุบันรองรับภาษาต่างๆ มากกว่า 80 ภาษา รวมถึงอารบิก จีน อังกฤษ ฝรั่งเศส เยอรมัน ญี่ปุ่น เกาหลี รัสเซีย สเปน และอื่นๆ อีกมากมาย ทำให้เป็นเครื่องมืออันมีค่าสำหรับนักพัฒนาที่ต้องการทำงานกับเนื้อหาหลายภาษา นอกเหนือจากความสามารถ OCR อันทรงพลังแล้ว ไลบรารียังมียูทิลิตี้ที่มีประโยชน์อีกมากมายสำหรับการทำงานกับรูปภาพและข้อความ ตัวอย่างเช่น มีเครื่องมือสำหรับการประมวลผลภาพล่วงหน้า เช่น การพับโต๊ะและการแปลงสองด้าน รวมถึงเครื่องมือหลังการประมวลผลเพื่อปรับปรุงความแม่นยำของเอาต์พุต OCR

PaddleOCR มี OCR ที่แตกต่างกันหลายรุ่น โดยแต่ละรุ่นได้รับการปรับให้เหมาะกับกรณีการใช้งานที่แตกต่างกัน ตัวอย่างเช่น โมเดลการตรวจจับข้อความถูกใช้เพื่อค้นหาและแยกขอบเขตข้อความจากรูปภาพ ในขณะที่โมเดลการรู้จำข้อความใช้เพื่อจดจำข้อความจริงภายในขอบเขตเหล่านั้น นอกจากนี้ยังมีฟีเจอร์ Model Ensemble ที่ช่วยให้นักพัฒนาสามารถรวมหลายโมเดลเข้าด้วยกันเพื่อให้ได้ความแม่นยำสูงยิ่งขึ้น โดยรวมแล้ว PaddleOCR เป็นไลบรารีที่ทรงพลังและใช้งานง่ายสำหรับเพิ่มความสามารถ OCR ให้กับแอปพลิเคชัน Python ของคุณ การรองรับภาษาและสคริปต์ที่หลากหลาย รวมถึงโมเดลที่ปรับแต่งได้และเครื่องมือหลังการประมวลผล ทำให้เป็นเครื่องมือที่มีค่าสำหรับนักพัฒนาที่ทำงานกับ OCR

โดยสรุป

ภาพรวมของคุณสมบัติ PaddleOCR

ภาพรวมคุณสมบัติ

ดำเนินการ OCR
เพิ่มความสามารถ OCR
จดจำข้อความรูปภาพ
แปลงรูปภาพข้อความ
ข้อความแบบอักษรที่รู้จัก
ค้นหา PDF
ภาษาอื่น
สร้างแอป OCR
บันทึกลงในเบราว์เซอร์
แยกข้อความ
การสนับสนุนแบบมัลติเธรด

PaddleOCR

PaddleOCR รองรับรูปแบบไฟล์ภาพยอดนิยมตามรายการด้านล่าง

ผู้อ่าน

PNG, JPEG, BMP, TIFF, TGA, DICOM

นักเขียน

PNG, JPEG, BMP, TIFF

PaddleOCR

Platform Independence

PaddleOCR สามารถทำงานร่วมกับ .NET Framework 4.8 และ Python 2.7 ขึ้นไปได้

Python 2.7 และสูงกว่า

PaddleOCR

เริ่มต้นใช้งาน PaddleOCR

วิธีที่แนะนำในการติดตั้ง PaddleOCR คือการใช้ pip โปรดใช้คำสั่งต่อไปนี้เพื่อการติดตั้งที่ราบรื่น

ติดตั้ง PaddleOCR ผ่าน pip

 
ติดตั้ง PaddleOCR ผ่าน pip
 pip install paddleocr 
คุณยังสามารถติดตั้งได้ด้วยตนเอง ดาวน์โหลดไฟล์รุ่นล่าสุดได้โดยตรงจากที่เก็บ GitHub

`การจดจำข้อความรูปภาพผ่าน PaddleOCR API`

การจดจำข้อความรูปภาพเป็นกระบวนการแยกข้อความออกจากรูปภาพ เป็นเทคนิคที่มีประโยชน์สำหรับการใช้งานต่างๆ เช่น การสแกนเอกสาร การแปลงเป็นดิจิทัล และ OCR (Optical Character Recognition) OCR (Optical Character Recognition) API แบบโอเพ่นซอร์สมอบชุดโมเดล OCR ที่ล้ำสมัยซึ่งสามารถจดจำข้อความจากรูปภาพต่างๆ รวมถึงเอกสารที่สแกน ภาพหน้าจอ และรูปถ่าย ไลบรารีรองรับคุณสมบัติสำคัญหลายประการที่เกี่ยวข้องกับการรู้จำข้อความของรูปภาพ เช่น การโหลดรูปภาพ เริ่มต้นโมเดล OCR ระบุขอบเขตข้อความในรูปภาพ จดจำข้อความจากรูปภาพ การแยกข้อความออกจากผลลัพธ์ และอื่นๆ อีกมากมาย ตัวอย่างต่อไปนี้แสดงวิธีการจดจำข้อความจากรูปภาพภายในแอปพลิเคชัน Python

`ดำเนินการจดจำข้อความรูปภาพภายในโครงการ Python`

import paddleocr
ocr = paddleocr.OCR()

# load an image using the PIL
from PIL import Image

image = Image.open('example.jpg')
result = ocr.ocr(image)

# access the recognized text

for line in result:
    print(line[1][0])
    print(line[1][1])

`การรับรู้เอกสาร OCR โดยใช้ Python API`

การจดจำเอกสารเป็นหนึ่งในงานวิจัยที่โดดเด่นสำหรับ OCR เอกสารถูกใช้เกือบทุกวันในชีวิตของเรา เมื่อนักพัฒนาซอฟต์แวร์ใช้ OCR กับเอกสาร ซอฟต์แวร์สามารถดึงข้อมูลสำคัญ ดึงข้อมูลฟิลด์แบบฟอร์ม วิเคราะห์เค้าโครง จัดเก็บแบบดิจิทัล และยังใช้สำหรับอ่านต้นฉบับเก่าอีกด้วย ไลบรารี PaddleOCR แบบโอเพ่นซอร์สช่วยให้นักพัฒนาซอฟต์แวร์สามารถโหลดเอกสารประเภทต่างๆ ดำเนินการ OCR ตลอดจนจดจำและแยกข้อความจากเอกสารโดยใช้โค้ด Python การจดจำข้อความมีความแม่นยำมากและไลบรารีสามารถตรวจจับอักขระพิเศษและช่องว่างได้อย่างแม่นยำ

`ดำเนินการจดจำเอกสาร OCRF โดยใช้ Python API`

img_path = './input_images/11-document-1.jpg'
result = ocr.ocr(img_path)

//Displaying the output.

`รองรับการจดจำตารางภายในแอป Python`

ไลบรารีโอเพ่นซอร์ส PaddleOCR ช่วยให้นักพัฒนาซอฟต์แวร์สามารถจดจำข้อมูลของตารางภายในแอปพลิเคชัน Python ของตนได้ การจดจำตารางส่วนใหญ่ประกอบด้วยสามโมเดล ได้แก่ การตรวจจับข้อความบรรทัดเดียว - DB, การจดจำข้อความบรรทัดเดียว - CRNN และโครงสร้างตาราง เช่นเดียวกับการทำนายพิกัดเซลล์ - SLANet ตัวอย่างต่อไปนี้แสดงวิธีการจดจำรูปภาพที่มีตาราง ตัวอย่างต่อไปนี้แสดงวิธีการใช้เมธอด Draw_ocr ซึ่งรับรูปภาพ กล่องขอบ ข้อความ คะแนน และเส้นทางไปยังไฟล์ฟอนต์ ส่งคืนรูปภาพพร้อมกรอบขอบและข้อความที่ตรวจพบ คุณสามารถแสดงภาพโดยใช้วิธีการแสดง

`โหลดรูปภาพและตรวจจับข้อความภายในรูปภาพผ่าน Python API`

from paddleocr import PaddleOCR, draw_ocr

# Load the image that contains the table.

# Load the image
img_path = 'table_image.png'
with open(img_path, 'rb') as f:
    img = f.read()

# Create an instance of the PaddleOCR object
ocr = PaddleOCR()


# Draw the bounding boxes around the detected table cells

boxes = [line[0] for line in result]
scores = [line[1] for line in result]
texts = [line[2][0] for line in result]
im_show = draw_ocr(img, boxes, texts, scores, font_path='arial.ttf')
im_show.show()