קוד פתוח של Python OCR API כדי להפוך קובצי PDF לחיפוש תמונות
API חינמי רב עוצמה של Python OCR לאוטומטי של תהליך OCR ומקל על ההמרה של קובצי PDF סרוקים למסמכים הניתנים לחיפוש מלא בקלות.
טכנולוגיית זיהוי תווים אופטי (OCR) חוללה מהפכה בדרך שבה אנו מטפלים ומעבדים מסמכים, ומאפשרת לנו לחלץ מידע בעל ערך ביעילות. בין שלל כלי ה-OCR הזמינים, OCRmyPDF בולט כספריית Python רב-תכליתית ועוצמתית המשלבת קלות שימוש עם דיוק יוצא דופן. OCRmyPDF הוא כלי שורת פקודה בקוד פתוח וספריית Python שתוכננה במיוחד להוספת OCR לקבצי PDF קיימים. הספרייה מנתחת כל עמוד של קובץ PDF כדי לקבוע את מרחב הצבע והרזולוציה (DPI) הדרושים כדי ללכוד את כל המידע בדף זה מבלי לאבד תוכן.
ספריית הקוד הפתוח OCRmyPDF תומכת במגוון רחב של פורמטי קלט, כולל תמונות סרוקות, קובצי PDF קיימים ואפילו קובצי DjVu. הוא פועל על הנחת היסוד של "תמונה פלוס טקסט" ומטרתו לייצר פלט באיכות גבוהה על ידי שימור המבנה והעיצוב של המסמך המקורי. הספרייה משתמשת בטכניקות אופטימיזציה של PDF כדי להקטין את גודל הקובץ תוך שמירה על האיכות הגבוהה ביותר האפשרית. על ידי החלת דחיסה ודגימה מטה, זה מבטיח שקובצי ה-PDF המתקבלים תומכי OCR יעילים לאחסון וגם מהירים לטעינה.
OCRmyPDF משתמש במנוע OCR החזק של Tesseract, התומך ביותר מ-100 שפות. האלגוריתמים המתקדמים שלו מבטיחים זיהוי מדויק של טקסט, אפילו מתמונות באיכות נמוכה או מעוותות. הספרייה סיפקה תמיכה ליצירת קובץ PDF/A הניתן לחיפוש מקובץ PDF רגיל בקלות. זה גם מספק כמה אפשרויות עיבוד תמונה, כמו ביטול הטיה, מה שמשפר את מראה הקבצים ואת איכות ה-OCR. כאשר משתמשים בהם, שכבת ה-OCR מושתלת על התמונה המעובדת במקום זאת. מערך התכונות המקיף שלו, כולל תמיכה במספר שפות, אופטימיזציה של PDF, בקרת שכבות טקסט ועיבוד אוטומטי, הופכים אותו לכלי בעל ערך עבור עסקים, חוקרים, ארכיונאים וכל מי שעוסק בכמויות גדולות של מסמכים סרוקים.
תחילת העבודה עם OCRmyPDF
הדרך המומלצת להתקין OCRmyPDF היא באמצעות pip. אנא השתמש בפקודה הבאה להתקנה חלקה.
התקן OCRmyPDF באמצעות pip
pip install ocrmypdf
אתה יכול גם להתקין אותו באופן ידני; הורד את קבצי הגרסה העדכניים ביותר ישירות ממאגר GitHub.
אופטימיזציה של PDF באמצעות Python API
ספריית הקוד הפתוח OCRmyPDF סיפקה תמיכה בתכונות שימושיות מאוד לניהול הגודל והאיכות של מסמכי PDF בתוך יישומי Python. הספרייה משתמשת בטכניקות אופטימיזציה של PDF כדי להקטין את גודל הקובץ תוך שמירה על האיכות הגבוהה ביותר האפשרית. על ידי החלת דחיסה ודגימה מטה, הוא מבטיח שקובצי ה-PDF המתקבלים תומכי OCR יהיו יעילים לאחסון וגם מהירים לטעינה. OCRmyPDF מספק מספר אפשרויות אופטימיזציה שתוכל להתאים אישית בהתאם לדרישות שלך. חלק מהאפשרויות הנפוצות כוללות הסרת קבצים זמניים, החלת דחיסה של JBIG2, דילוג על הוספת ה-OCR, השבתת דחיסה ללא אובדן כדי למקסם את הפחתת גודל הקובץ וכן הלאה.
כיצד לבצע אופטימיזציה של קובצי PDF באמצעות Python API?
import subprocess
def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
try:
# OCRmyPDF command with optimization options
command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
# Execute the OCRmyPDF command
subprocess.run(command, check=True)
print("PDF optimization complete!")
except subprocess.CalledProcessError as e:
print(f"OCRmyPDF error: {e}")
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'
optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)
שילוב שכבת טקסט PDF באמצעות Python API
OCRmyPDF, ספריית קוד פתוח, מספקת פתרון רב עוצמה לשילוב שכבות טקסט בקובצי PDF, שיפור הנגישות למסמכים ויכולת החיפוש. הספרייה מוסיפה שכבת טקסט המכילה טקסט שנוצר באמצעות OCR ישירות למסמך ה-PDF, מה שמבטיח את שימור הפריסה המקורית. תכונה זו מאפשרת חיפוש טקסט מלא, העתקה הדבקה וחילוץ טקסט. כאשר עובדים עם מסמכי PDF, שילוב של שכבת טקסט בתוך הקובץ הוא יתרון רב. שכבת הטקסט מכילה את הטקסט המוכר שנוצר ב-OCR, מה שהופך את ה-PDF לניתן לחיפוש ומאפשר העתקה וחילוץ קל של טקסט. שילוב זה שומר על פריסת המסמך המקורית תוך הפעלת פעולות מבוססות טקסט, תוך שיפור השימושיות והיעילות של המסמכים.