1. מוצרים
  2.   PDF
  3.   Python
  4.   PDFMiner
 
  

חלץ מידע מקובצי PDF באמצעות ספריית Python בחינם

Python API חינמי המאפשר למפתחים לחלץ מידע ממסמכי PDF ולהמיר PDF לפורמטים אחרים ומבצע ניתוח פריסה אוטומטי.

PDFMiner היא ספריית Python קלה מאוד לשימוש בקוד פתוח לעיבוד קבצי PDF ללא תלות אחרת. PDFMine.six מתוחזק קהילה של ספריית PDFMiner המקורית. הספרייה סיפקה תכונות חזקות מאוד לחילוץ מידע ממסמכי PDF. הוא מספק כלי פקודה עבור שאינם מתכנתים וממשק API עבור מתכנתים. ממיר PDF רב עוצמה הוא גם חלק מהספרייה המסייעת למשתמשים להפוך קבצי PDF לפורמטים אחרים של טקסט כגון HTML.

ה-PDFMiner הוא ספריית Python טהורה שיכולה לחלץ בקלות את כל הטקסטים מקובץ PDF המעובדים באופן פרוגרמטי. היכולת הנהדרת היא שהוא גם מחלץ את המיקומים המתאימים, שמות וגדלים של גופנים וכיוון הכתיבה (אופקי או אנכי) עבור כל קטע טקסט. הוא תומך במפרט PDF-1.7 ומספק תמיכה לחילוץ מסמכי PDF מוגן בסיסמה. הספרייה כללה מספר תכונות חשובות אחרות, כגון ניתוח, ניתוח והמרה של מסמכי PDF, חילוץ תוכן כ-HTML או hOCR, תמיכה בכתיבה אנכית של סקריפטים, תמיכה בהצפנה RC4 ו-AES, חילוץ תוכן עניינים, חילוץ תוכן מתויג, פריסה אוטומטית ניתוח וכן הלאה.

Previous Next

תחילת העבודה עם PDFMiner

PDFMiner דורש Python 3.6 ומעלה. אתה יכול להתקין PDFMiner באמצעות pip. אנא השתמש בפקודה הבאה כדי להתקין אותו.

התקן את PDFMiner באמצעות pip

 pip install pdfminer 

אתה יכול גם להוריד את הספרייה המשותפת שהורכבה ממאגר GitHub ולהתקין אותו.

חלץ טקסט מקובץ PDF באמצעות Python

ספריית הקוד הפתוח Pdfminer.six מעניקה למפתחי תוכנה את היכולת לחלץ טקסט מקובץ PDF רק עם כמה שורות של קוד Python. הספרייה מתמקדת בקבלת וניתוח נתוני טקסט ולאחר מכן מחלצת את הטקסט מדף ישירות מקוד המקור של ה-PDF. הספרייה גם מאפשרת למפתחים לחלץ תמונות (JPG, JBIG2, Bitmaps) מקובץ PDF. אפשר גם לחלץ את שם הגופן או הגודל של כל תו בודד. הדוגמאות הבאות מראות כיצד לחלץ את הטקסט מקובץ PDF ולהדפיס אותו על המסך.

פתח ופעל מסמכי PDF באמצעות Python

 from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)

המר קובץ PDF ל-hOCR באמצעות Python API

hOCR הוא תקן פתוח של ייצוג נתונים עבור טקסט מעוצב המתקבל מזיהוי תווים אופטי (OCR). ספריות Pdfminer.six החינמיות מאפשרות למפתחי תוכנה להמיר קבצי PDF לפורמט hOCR עם כמה שורות של קוד Python. הספרייה קלה מאוד לטיפול ויכולה לחלץ את מידע הטקסט המפורש מאותם קובצי PDF שיש להם אותו ומשתמשת בו כדי ליצור ייצוג hOCR בסיסי.

המר קובץ PDF לטקסט באמצעות Python

הספרייה כוללת ערכת תכונות עשירה ויכולות המאפשרות לך להתרחב מעבר לעיבוד ה-PDF הבסיסי. ספריית הקוד הפתוח Pdfminer.six מאפשרת למפתחי Python להמיר מסמכי PDF לטקסט באמצעות כמה פקודות פשוטות. ראשית עליך לספק את הנתיב לקובצי PDF וכן את קובץ הטקסט. אם המסמך מוגן בסיסמה, עליך לספק גם את הסיסמה שלו. ניתן להשתמש בדוגמה הבאה של הקוד כדי להשיג את המטרה, היא פשוט תחזיר את המחרוזת ב-PDF, בהינתן שם הקובץ שלו, אתה יכול בקלות לשמור אותו בקובץ.

המר קובץ PDF לפורמט טקסט באמצעות Python API

 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    fp.close()
    device.close()
    retstr.close()
    return text
 עִברִית