Avoimen lähdekoodin Python OCR -sovellusliittymä tekee kuva-pdf-tiedostoista haettavia
Tehokas ilmainen Python OCR -sovellusliittymä automatisoi OCR-prosessin ja helpottaa skannatun PDF-kuvan muuntamista täysin haettavissa oleviksi asiakirjoiksi helposti.
Optinen merkintunnistustekniikka (OCR) on mullistanut tapamme käsitellä asiakirjoja, minkä ansiosta voimme poimia arvokasta tietoa tehokkaasti. Monien saatavilla olevien OCR-työkalujen joukossa OCRmyPDF erottuu monipuolisena ja tehokkaana Python-kirjastona, jossa yhdistyvät helppokäyttöisyys poikkeukselliseen tarkkuuteen. OCRmyPDF on avoimen lähdekoodin komentorivityökalu ja Python-kirjasto, joka on suunniteltu erityisesti OCR:n lisäämiseen olemassa oleviin PDF-tiedostoihin. Kirjasto analysoi PDF-tiedoston jokaisen sivun määrittääkseen väriavaruuden ja resoluution (DPI), joka tarvitaan kaikkien sivun tietojen kaappaamiseen sisällön menettämättä.
Avoimen lähdekoodin OCRmyPDF-kirjasto tukee monenlaisia syöttömuotoja, mukaan lukien skannatut kuvat, olemassa olevat PDF-tiedostot ja jopa DjVu-tiedostot. Se toimii "kuva plus teksti" -periaatteella ja pyrkii tuottamaan korkealaatuisia tulosteita säilyttämällä alkuperäisen asiakirjan rakenteen ja muotoilun. Kirjasto käyttää PDF-optimointitekniikoita tiedoston koon pienentämiseksi säilyttäen samalla parhaan mahdollisen laadun. Käyttämällä pakkausta ja alasnäytteenottoa se varmistaa, että tuloksena olevat OCR-yhteensopivat PDF-tiedostot ovat sekä tehokkaita tallennettavia että nopeita latautumista.
OCRmyPDF käyttää vahvaa Tesseract OCR -moottoria, joka tukee yli 100 kieltä. Sen edistyneet algoritmit varmistavat tekstin tarkan tunnistamisen myös huonolaatuisista tai vääristyneistä kuvista. Kirjasto on tarjonnut tukea haettavan PDF/A-tiedoston luomiseen tavallisesta PDF-tiedostosta helposti. Se tarjoaa myös joitain kuvankäsittelyasetuksia, kuten vinoutumista, joka parantaa tiedostojen ulkonäköä ja OCR:n laatua. Kun näitä käytetään, OCR-kerros oksastetaan sen sijaan käsiteltyyn kuvaan. Sen kattava ominaisuussarja, mukaan lukien tuki useille kielille, PDF-optimointi, tekstikerroksen ohjaus ja automaattinen käsittely, tekee siitä arvokkaan työkalun yrityksille, tutkijoille, arkistonhoitajille ja kaikille, jotka käsittelevät suuria määriä skannattuja asiakirjoja.
OCRmyPDF:n käytön aloittaminen
Suositeltu tapa asentaa OCRmyPDF on käyttää pip. Käytä seuraavaa komentoa sujuvaan asennukseen.
Asenna OCRmyPDF pipin kautta
pip install ocrmypdf
Voit asentaa sen myös manuaalisesti. lataa uusimmat julkaisutiedostot suoraan GitHub -varastosta.
PDF-optimointi Python API:lla
Avoimen lähdekoodin OCRmyPDF-kirjasto on tukenut erittäin hyödyllisiä ominaisuuksia PDF-dokumenttien koon ja laadun hallintaan Python-sovelluksissa. Kirjasto käyttää PDF-optimointitekniikoita tiedoston koon pienentämiseksi säilyttäen samalla parhaan mahdollisen laadun. Käyttämällä pakkausta ja alasnäytteenottoa se varmistaa, että tuloksena olevat OCR-yhteensopivat PDF-tiedostot ovat sekä tehokkaita tallennettavia että nopeita ladata. OCRmyPDF tarjoaa useita optimointivaihtoehtoja, joita voit mukauttaa tarpeidesi mukaan. Joitakin yleisesti käytettyjä vaihtoehtoja ovat väliaikaisten tiedostojen poistaminen, JBIG2-pakkauksen käyttäminen, OCR:n lisäämisen ohittaminen, häviöttömän pakkauksen poistaminen käytöstä tiedostokoon pienentämiseksi ja niin edelleen.
Kuinka optimoida PDF-tiedostoja Python API:n avulla?
import subprocess
def optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path):
try:
# OCRmyPDF command with optimization options
command = ['ocrmypdf', '-l', 'eng', '--pdf-renderer', 'hocr', '--optimize', '0', input_pdf_path, output_pdf_path]
# Execute the OCRmyPDF command
subprocess.run(command, check=True)
print("PDF optimization complete!")
except subprocess.CalledProcessError as e:
print(f"OCRmyPDF error: {e}")
# Example usage
input_pdf_path = 'input.pdf'
output_pdf_path = 'output.pdf'
optimize_pdf_with_ocrmypdf(input_pdf_path, output_pdf_path)
PDF-tekstikerroksen integrointi Python-sovellusliittymän kautta
OCRmyPDF, avoimen lähdekoodin kirjasto, tarjoaa tehokkaan ratkaisun tekstitasojen integrointiin PDF-tiedostoihin, mikä parantaa asiakirjojen saavutettavuutta ja hakukykyä. Kirjasto lisää OCR:llä luotua tekstiä sisältävän tekstikerroksen suoraan PDF-dokumenttiin, mikä varmistaa alkuperäisen asettelun säilymisen. Tämä ominaisuus mahdollistaa koko tekstin haun, kopioinnin ja liittämisen sekä tekstin purkamisen. PDF-dokumenttien kanssa työskenneltäessä tekstikerroksen integrointi tiedostoon on erittäin edullista. Tekstikerros sisältää tunnistetun OCR:n luoman tekstin, mikä tekee PDF-tiedostosta haettavan ja mahdollistaa tekstin helpon kopioinnin ja poimimisen. Tämä integrointi säilyttää alkuperäisen asiakirjan asettelun ja mahdollistaa samalla tekstipohjaiset toiminnot, mikä parantaa asiakirjan käytettävyyttä ja tehokkuutta.