1. Ürün:% s
  2.   OCR
  3.   Java
  4.   Tess4J
 
  

OCR Metin Çıkarma ve Belge Analizi için Ücretsiz Java Kütüphanesi

OCR yeteneklerini Java uygulamalarına dahil etmek için Açık Kaynak Java OCR Kitaplığı ve Taranan Belgelerin yanı sıra Görüntülerden Metin Çıkarmaya olanak tanır.

Günümüzün dijital çağında, Optik Karakter Tanıma (OCR), resimlerden ve taranmış belgelerden metin çıkarmak için önemli bir araç haline geldi. OCR teknolojisi, basılı veya el yazısı metnin makine tarafından okunabilen verilere dönüştürülmesini sağlayarak belge analizi, veri çıkarma ve otomasyon için çok sayıda olanağın önünü açar. Mevcut birçok OCR çözümü arasında Tess4J, Tesseract OCR motorunun çok yönlülüğünü Java programlamanın basitliğiyle birleştiren güçlü bir açık kaynak kitaplığı olarak öne çıkıyor.

Tess4J kitaplığı, Java geliştiricilerine OCR özelliklerini uygulamalarına sorunsuz bir şekilde dahil etme gücü verir. Orijinal olarak Hewlett-Packard tarafından geliştirilen ve şu anda Google tarafından bakımı yapılan bir OCR motoru olan Tesseract için bir Java sarmalayıcıdır. Tess4J, doğruluğuyla tanınan Tesseract'ın OCR motorunu kullanır. Görüntülerden güvenilir metin çıkarımı sağlamak ve yüksek kaliteli sonuçlar sağlamak için gelişmiş algoritmalar ve makine öğrenimi teknikleri kullanır. Java uygulamalarında OCR entegrasyonunu mümkün kılarak Windows, Linux ve macOS gibi farklı platformlarla uyumlu olmasını sağlar.

Tess4J, basit ve iyi belgelenmiş bir API sunarak geliştiricilerin OCR yeteneklerini Java uygulamalarına entegre etmesini kolaylaştırır. Tess4J, geliştiricilerin güçlü OCR yeteneklerini Java uygulamalarına entegre etmelerine olanak tanıyan çok yönlü ve sağlam bir açık kaynaklı kitaplıktır. Birden fazla dil desteği, görüntü ön işleme özellikleri, PDF dönüştürme yetenekleri ve güven puanlama sistemi ile Tess4J, metin çıkarma ve belge analizi için etkili ve güvenilir bir çözüm sunar.

Previous Next

Tess4J'ye Başlarken

Tess4J'yi kurmanın önerilen yolu Maven'i kullanmaktır. Sorunsuz bir kurulum için lütfen aşağıdaki komutu kullanın.

Tess4J için Maven Bağımlılığı


<dependencies>
	<dependency>
	<groupId>net.sourceforge.tess4j</groupId>
	<artifactId>tess4j;/artifactId>
	<version>X.X.X</version>
    </dependency>
</dependencies>

Tess4J'yi GitHub aracılığıyla yükleyin

 git clone https://github.com/nguyenq/tess4j.git  

Manuel olarak da yükleyebilirsiniz; En son sürüm dosyalarını doğrudan GitHub deposundan indirin.

Java API aracılığıyla İçerik Çıkarma

Açık kaynak Tess4J kitaplığı, yazılım geliştiricilerin Java uygulamaları içindeki çeşitli görüntü türlerinden metin çıkarmalarına olanak tanır. Kütüphane, görsellerden metin çıkarılmasına olanak tanıyarak uygulamaların metin içeriğini analiz etmesine ve işlemesine olanak tanır. Bu yetenek, duygu analizi, metin özetleme ve bilgi alma gibi alanlarda uygulama alanı bulur. Kitaplık ayrıca Tesseract OCR motorunun yüklenmesini, belirtilen görüntü üzerinde içerik çıkarma işlemini gerçekleştirmeyi ve çıkarılan metni konsola yazdırmayı da kolaylaştırır.

Java OCR Kitaplığını kullanarak İçerik Çıkarma işlemini gerçekleştirin

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class ContentExtractionExample {
    public static void main(String[] args) {
        // Path to the Tesseract OCR installation directory
        String tessDataPath = "path/to/tesseract";

        // Initialize Tesseract instance
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath(tessDataPath);

        try {
            // Set the language for OCR (e.g., "eng" for English)
            tesseract.setLanguage("eng");

            // Path to the image file for content extraction
            String imagePath = "path/to/image.jpg";

            // Perform content extraction
            String extractedText = tesseract.doOCR(new File(imagePath));
            System.out.println(extractedText);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

Java API aracılığıyla PDF'yi Düz Metne Dönüştürme

Açık kaynak Tess4J kitaplığı, PDF belgelerini Java uygulamalarına yüklemek ve düz metne dönüştürmek için eksiksiz işlevsellik sağlamıştır. Tess4J, aranabilir PDF belgelerini düz metne dönüştürerek geliştiricilerin PDF dosyalarından içerik çıkarmasına ve daha fazla analiz veya veri işleme gerçekleştirmesine olanak tanır. Aşağıdaki örnek, yazılım geliştiricilerin mevcut bir PDF dosyasını Java uygulamaları içinde nasıl düz metne dönüştürebileceklerini göstermektedir.

Mevcut bir PDF Dosyasını Düz ​​Metne Nasıl Dönüştürürüz?

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFToTextConverter {
    public static void main(String[] args) {
        // Path to the PDF file
        String filePath = "path/to/your/pdf/file.pdf";

        try {
            // Load the PDF document
            PDDocument document = PDDocument.load(new File(filePath));

            // Create an instance of Tesseract OCR engine
            Tesseract tesseract = new Tesseract();

            // Set the path to the tessdata directory (containing language data)
            tesseract.setDatapath("path/to/your/tessdata/directory");

            // Iterate over each page of the PDF document
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                // Extract the text from the current page
                PDFTextStripper stripper = new PDFTextStripper();
                stripper.setStartPage(pageIndex + 1);
                stripper.setEndPage(pageIndex + 1);
                String pageText = stripper.getText(document);

                // Perform OCR on the extracted text
                String ocrText = tesseract.doOCR(pageText);

                // Output the OCR result
                System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
                System.out.println(ocrText);
                System.out.println("--------------------------------------");
            }

            // Close the PDF document
            document.close();
        } catch (IOException | TesseractException e) {
            e.printStackTrace();
        }
    }
}

 Türkçe