Open Source Python OCR API เพื่อทำให้รูปภาพ PDF สามารถค้นหาได้
Python OCR API ฟรีอันทรงพลังเพื่อทำให้กระบวนการ OCR เป็นอัตโนมัติและอำนวยความสะดวกในการแปลงไฟล์ PDF ภาพที่สแกนเป็นเอกสารที่ค้นหาได้อย่างสมบูรณ์อย่างง่ายดาย.
เทคโนโลยีการรู้จำอักขระด้วยแสง (OCR) ได้ปฏิวัติวิธีที่เราจัดการและประมวลผลเอกสาร ทำให้เราสามารถดึงข้อมูลอันมีค่าได้อย่างมีประสิทธิภาพ ในบรรดาเครื่องมือ OCR ที่มีอยู่มากมาย OCRmyPDF มีความโดดเด่นในฐานะไลบรารี Python อเนกประสงค์และทรงพลังที่ผสมผสานการใช้งานที่ง่ายเข้ากับความแม่นยำที่ยอดเยี่ยม OCRmyPDF เป็นเครื่องมือบรรทัดคำสั่งโอเพ่นซอร์สและไลบรารี Python ที่ออกแบบมาโดยเฉพาะสำหรับการเพิ่ม OCR ลงในไฟล์ PDF ที่มีอยู่ ไลบรารีจะวิเคราะห์แต่ละหน้าของไฟล์ PDF เพื่อกำหนดพื้นที่สีและความละเอียด (DPI) ที่จำเป็นในการรวบรวมข้อมูลทั้งหมดบนหน้านั้นโดยไม่สูญเสียเนื้อหา
ไลบรารีโอเพ่นซอร์ส OCRmyPDF รองรับรูปแบบอินพุตที่หลากหลาย รวมถึงรูปภาพที่สแกน, PDF ที่มีอยู่ และแม้แต่ไฟล์ DjVu ทำงานบนสมมติฐานของ "รูปภาพพร้อมข้อความ" และมุ่งหวังที่จะผลิตผลงานคุณภาพสูงโดยคงโครงสร้างและการจัดรูปแบบของเอกสารต้นฉบับไว้ ไลบรารีใช้เทคนิคการเพิ่มประสิทธิภาพ PDF เพื่อลดขนาดไฟล์โดยยังคงรักษาคุณภาพสูงสุดเท่าที่จะเป็นไปได้ การใช้การบีบอัดและการสุ่มตัวอย่างช่วยให้มั่นใจได้ว่าไฟล์ PDF ที่เปิดใช้งาน OCR ที่ได้จะมีประสิทธิภาพในการจัดเก็บและโหลดได้อย่างรวดเร็ว
OCRmyPDF ใช้เครื่องมือ Tesseract OCR ที่แข็งแกร่ง ซึ่งรองรับมากกว่า 100 ภาษา อัลกอริธึมขั้นสูงช่วยให้มั่นใจได้ถึงการจดจำข้อความที่แม่นยำ แม้จากรูปภาพคุณภาพต่ำหรือบิดเบี้ยว ไลบรารีได้ให้การสนับสนุนในการสร้างไฟล์ PDF/A ที่สามารถค้นหาได้จาก PDF ทั่วไปอย่างง่ายดาย นอกจากนี้ยังมีตัวเลือกการประมวลผลภาพบางอย่าง เช่น Deskew ซึ่งปรับปรุงรูปลักษณ์ของไฟล์และคุณภาพของ OCR เมื่อใช้สิ่งเหล่านี้ เลเยอร์ OCR จะถูกกราฟต์ลงบนภาพที่ประมวลผลแทน ชุดคุณลักษณะที่ครอบคลุม รวมถึงการสนับสนุนหลายภาษา การเพิ่มประสิทธิภาพ PDF การควบคุมเลเยอร์ข้อความ และการประมวลผลอัตโนมัติ ทำให้เป็นเครื่องมือที่มีค่าสำหรับธุรกิจ นักวิจัย นักเก็บเอกสาร และใครก็ตามที่เกี่ยวข้องกับเอกสารที่สแกนจำนวนมาก
เริ่มต้นใช้งาน OCRmyPDF
วิธีที่แนะนำในการติดตั้ง OCRmyPDF คือการใช้ pip โปรดใช้คำสั่งต่อไปนี้เพื่อการติดตั้งที่ราบรื่น
ติดตั้ง OCRmyPDF ผ่าน pip
pip install ocrmypdf
คุณยังสามารถติดตั้งได้ด้วยตนเอง ดาวน์โหลดไฟล์รุ่นล่าสุดได้โดยตรงจากที่เก็บ GitHub
การเพิ่มประสิทธิภาพ PDF โดยใช้ Python API
ไลบรารี OCRmyPDF แบบโอเพ่นซอร์สได้ให้การสนับสนุนคุณสมบัติที่มีประโยชน์มากในการจัดการขนาดและคุณภาพของเอกสาร PDF ภายในแอปพลิเคชัน Python ไลบรารีใช้เทคนิคการเพิ่มประสิทธิภาพ PDF เพื่อลดขนาดไฟล์โดยยังคงรักษาคุณภาพสูงสุดเท่าที่จะเป็นไปได้ การใช้การบีบอัดและการสุ่มตัวอย่างช่วยให้มั่นใจได้ว่าไฟล์ PDF ที่เปิดใช้งาน OCR ที่ได้จะมีประสิทธิภาพในการจัดเก็บและโหลดได้อย่างรวดเร็ว OCRmyPDF มีตัวเลือกการเพิ่มประสิทธิภาพหลายอย่างที่คุณสามารถปรับแต่งได้ตามความต้องการของคุณ ตัวเลือกที่ใช้กันทั่วไป ได้แก่ การลบไฟล์ชั่วคราว การใช้การบีบอัด JBIG2 การข้ามการเพิ่ม OCR การปิดใช้งานการบีบอัดแบบไม่สูญเสียข้อมูลเพื่อเพิ่มขนาดไฟล์ให้สูงสุด และอื่นๆ
จะเพิ่มประสิทธิภาพไฟล์ PDF โดยใช้ Python API ได้อย่างไร
import subprocess
def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
try:
# OCRmyPDF command with optimization options
command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
# Execute the OCRmyPDF command
subprocess.run(command, check=True)
print("PDF optimization complete!")
except subprocess.CalledProcessError as e:
print(f"OCRmyPDF error: {e}")
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'
optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)
การรวมเลเยอร์ข้อความ PDF ผ่าน Python API
OCRmyPDF ซึ่งเป็นไลบรารีโอเพ่นซอร์ส มอบโซลูชันที่มีประสิทธิภาพสำหรับการรวมเลเยอร์ข้อความลงในไฟล์ PDF ปรับปรุงการเข้าถึงเอกสารและความสามารถในการค้นหา ไลบรารีจะเพิ่มเลเยอร์ข้อความที่มีข้อความที่สร้างโดย OCR ลงในเอกสาร PDF โดยตรง เพื่อให้มั่นใจว่ายังคงรักษาเค้าโครงดั้งเดิมไว้ คุณลักษณะนี้ช่วยให้สามารถค้นหาข้อความแบบเต็ม การคัดลอกการวาง และการแยกข้อความได้ เมื่อทำงานกับเอกสาร PDF การมีเลเยอร์ข้อความรวมอยู่ในไฟล์จะเป็นประโยชน์อย่างมาก เลเยอร์ข้อความประกอบด้วยข้อความที่สร้างโดย OCR ซึ่งเป็นที่รู้จัก ทำให้สามารถค้นหา PDF ได้ และช่วยให้คัดลอกและแยกข้อความได้ง่าย การผสานรวมนี้จะรักษาเค้าโครงเอกสารต้นฉบับไว้ในขณะเดียวกันก็เปิดใช้งานการดำเนินการตามข้อความ ซึ่งช่วยเพิ่มความสามารถในการใช้งานและประสิทธิภาพของเอกสาร