Ilmainen Java-kirjasto OCR-tekstin purkamiseen ja asiakirja-analyysiin
Avoimen lähdekoodin Java OCR -kirjasto, joka mahdollistaa OCR-ominaisuuksien sisällyttämisen Java-sovelluksiin ja mahdollistaa tekstin purkamisen kuvista ja skannatuista asiakirjoista.
Nykyajan digitaaliaikana optisesta merkintunnistuksesta (OCR) on tullut olennainen työkalu tekstin poimimiseen kuvista ja skannatuista asiakirjoista. OCR-tekniikka mahdollistaa painetun tai käsin kirjoitetun tekstin muuntamisen koneellisesti luettavaksi tiedoiksi, mikä avaa lukuisia mahdollisuuksia dokumenttien analysointiin, tiedon poimimiseen ja automatisointiin. Monien saatavilla olevien OCR-ratkaisujen joukossa Tess4J erottuu tehokkaana avoimen lähdekoodin kirjastona, jossa yhdistyvät Tesseract OCR -moottorin monipuolisuus Java-ohjelmoinnin yksinkertaisuuteen.
Tess4J-kirjasto antaa Java-kehittäjille mahdollisuuden sisällyttää OCR-ominaisuudet saumattomasti sovelluksiinsa. Se on Java-kääre Tesseractille, OCR-moottorille, jonka alun perin kehitti Hewlett-Packardi ja jota tällä hetkellä ylläpitää Google. Tess4J hyödyntää Tesseractin OCR-moottoria, joka on tunnettu tarkkuudestaan. Se käyttää edistyneitä algoritmeja ja koneoppimistekniikoita luotettavan tekstin poimimiseen kuvista, mikä varmistaa korkealaatuiset tulokset. Se mahdollistaa OCR-integroinnin Java-sovelluksiin, mikä tekee siitä yhteensopivan eri alustojen, kuten Windowsin, Linuxin ja macOS:n, kanssa.
Tess4J tarjoaa yksinkertaisen ja hyvin dokumentoidun API:n, jonka avulla kehittäjien on helppo integroida OCR-ominaisuudet Java-sovelluksiinsa. Tess4J on monipuolinen ja vankka avoimen lähdekoodin kirjasto, jonka avulla kehittäjät voivat integroida tehokkaita OCR-ominaisuuksia Java-sovelluksiinsa. Useiden kielten tuella, kuvien esikäsittelyominaisuuksilla, PDF-muunnosominaisuuksilla ja luotettavuuspisteytysjärjestelmällä Tess4J tarjoaa tehokkaan ja luotettavan ratkaisun tekstin poimimiseen ja dokumenttien analysointiin.
Tess4J:n käytön aloittaminen
Suositeltava tapa asentaa Tess4J on Mavenin käyttö. Käytä seuraavaa komentoa sujuvaan asennukseen.
Maven Dependency for Tess4J
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
Asenna Tess4J GitHubin kautta
git clone https://github.com/nguyenq/tess4j.git
Voit asentaa sen myös manuaalisesti. lataa uusimmat julkaisutiedostot suoraan GitHub-arkistosta.
Sisällön purkaminen Java-sovellusliittymän kautta
Avoimen lähdekoodin Tess4J-kirjaston avulla ohjelmistokehittäjät voivat poimia tekstiä erityyppisistä kuvista Java-sovelluksissa. Kirjasto mahdollistaa tekstin poimimisen kuvista, jolloin sovellukset voivat analysoida ja käsitellä tekstisisältöä. Tämä ominaisuus löytää sovelluksia sellaisilla aloilla kuin mielialan analysointi, tekstin yhteenveto ja tiedonhaku. Kirjaston avulla on myös helppo ladata Tesseract OCR -moottori, suorittaa sisällön purkaminen määritetylle kuvalle ja tulostaa purettu teksti konsoliin.
Suorita sisällön purkaminen Java OCR Libraryn avulla
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
PDF-muunnos pelkkää tekstiä Java-sovellusliittymän kautta
Avoimen lähdekoodin Tess4J-kirjasto tarjoaa täydelliset toiminnot PDF-dokumenttien lataamiseen ja muuntamiseen tavalliseksi tekstiksi Java-sovelluksissa. Tess4J voi muuntaa haettavat PDF-dokumentit tavalliseksi tekstiksi, jolloin kehittäjät voivat poimia sisältöä PDF-tiedostoista ja suorittaa lisäanalyysejä tai tietojenkäsittelyä. Seuraava esimerkki näyttää, kuinka ohjelmistokehittäjät voivat muuntaa olemassa olevan PDF-tiedoston tavalliseksi tekstiksi Java-sovelluksissa.
Kuinka muuntaa olemassa oleva PDF-tiedosto tavalliseksi tekstiksi?
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}