Open Source Python OCR API för att göra bild-PDF-filer sökbara
Ett kraftfullt gratis Python OCR API för att automatisera OCR-processen och underlätta konverteringen av skannade PDF-bilder till helt sökbara dokument med lätthet.
Optical Character Recognition (OCR)-teknik har revolutionerat sättet vi hanterar och bearbetar dokument, vilket gör det möjligt för oss att extrahera värdefull information på ett effektivt sätt. Bland de många tillgängliga OCR-verktygen utmärker sig OCRmyPDF som ett mångsidigt och kraftfullt Python-bibliotek som kombinerar användarvänlighet med exceptionell noggrannhet. OCRmyPDF är ett kommandoradsverktyg med öppen källkod och Python-bibliotek designat specifikt för att lägga till OCR till befintliga PDF-filer. Biblioteket analyserar varje sida i en PDF-fil för att bestämma färgrymd och upplösning (DPI) som behövs för att fånga all information på den sidan utan att förlora innehåll.
Öppen källkod OCRmyPDF-biblioteket stöder ett brett utbud av inmatningsformat, inklusive skannade bilder, befintliga PDF-filer och till och med DjVu-filer. Den arbetar utifrån premissen "bild plus text" och syftar till att producera högkvalitativa utskrifter genom att bevara originaldokumentets struktur och formatering. Biblioteket använder PDF-optimeringstekniker för att minska filstorleken samtidigt som den bibehåller högsta möjliga kvalitet. Genom att tillämpa komprimering och nedsampling säkerställer det att de resulterande OCR-aktiverade PDF-filerna är både effektiva att lagra och snabba att ladda.
OCRmyPDF använder den robusta Tesseract OCR-motorn, som stöder över 100 språk. Dess avancerade algoritmer säkerställer korrekt igenkänning av text, även från bilder av låg kvalitet eller förvrängda. Biblioteket har gett stöd för att generera en sökbar PDF/A-fil från en vanlig PDF med lätthet. Det tillhandahåller också vissa bildbehandlingsalternativ, som justering av skevhet, vilket förbättrar utseendet på filer och kvaliteten på OCR. När dessa används ympas OCR-lagret på den bearbetade bilden istället. Dess omfattande funktionsuppsättning, inklusive stöd för flera språk, PDF-optimering, kontroll av textlager och automatiserad bearbetning, gör den till ett värdefullt verktyg för företag, forskare, arkivarier och alla som har att göra med stora volymer skannade dokument.
Komma igång med OCRmyPDF
Det rekommenderade sättet att installera OCRmyPDF är att använda pip. Använd följande kommando för en smidig installation.
Installera OCRmyPDF via pip
pip install ocrmypdf
Du kan också installera det manuellt; ladda ner de senaste versionsfilerna direkt från GitHub-förrådet.
PDF-optimering med Python API
Öppen källkod OCRmyPDF-biblioteket har tillhandahållit stöd för en mycket användbar funktion för att hantera storleken och kvaliteten på PDF-dokument i Python-applikationer. Biblioteket använder PDF-optimeringstekniker för att minska filstorleken samtidigt som den bibehåller högsta möjliga kvalitet. Genom att tillämpa komprimering och nedsampling säkerställer det att de resulterande OCR-aktiverade PDF-filerna är både effektiva att lagra och snabba att ladda. OCRmyPDF tillhandahåller flera optimeringsalternativ som du kan anpassa baserat på dina krav. Några vanligt använda alternativ inkluderar att ta bort temporära filer, tillämpa JBIG2-komprimering, hoppa över att lägga till OCR, inaktivera förlustfri komprimering för att maximera filstorleksminskningen och så vidare.
Hur optimerar man PDF-filer med Python API?
import subprocess
def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
try:
# OCRmyPDF command with optimization options
command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
# Execute the OCRmyPDF command
subprocess.run(command, check=True)
print("PDF optimization complete!")
except subprocess.CalledProcessError as e:
print(f"OCRmyPDF error: {e}")
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'
optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)
PDF Text Layer Integration via Python API
OCRmyPDF, ett bibliotek med öppen källkod, tillhandahåller en kraftfull lösning för att integrera textlager i PDF-filer, vilket förbättrar dokumenttillgänglighet och sökbarhet. Biblioteket lägger till ett textlager som innehåller OCR-genererad text direkt på PDF-dokumentet, vilket säkerställer att den ursprungliga layouten bevaras. Den här funktionen möjliggör fulltextsökning, kopiering och klistra in och extrahering av text. När du arbetar med PDF-dokument är det mycket fördelaktigt att ha ett textlager integrerat i filen. Textlagret innehåller den igenkända OCR-genererade texten, vilket gör PDF-filen sökbar och möjliggör enkel kopiering och extrahering av text. Denna integration bevarar den ursprungliga dokumentlayouten samtidigt som den möjliggör textbaserad operation, vilket förbättrar dokumentets användbarhet och effektivitet.