OCR Metin Çıkarma ve Belge Analizi için Ücretsiz Java Kütüphanesi
OCR yeteneklerini Java uygulamalarına dahil etmek için Açık Kaynak Java OCR Kitaplığı ve Taranan Belgelerin yanı sıra Görüntülerden Metin Çıkarmaya olanak tanır.
Günümüzün dijital çağında, Optik Karakter Tanıma (OCR), resimlerden ve taranmış belgelerden metin çıkarmak için önemli bir araç haline geldi. OCR teknolojisi, basılı veya el yazısı metnin makine tarafından okunabilen verilere dönüştürülmesini sağlayarak belge analizi, veri çıkarma ve otomasyon için çok sayıda olanağın önünü açar. Mevcut birçok OCR çözümü arasında Tess4J, Tesseract OCR motorunun çok yönlülüğünü Java programlamanın basitliğiyle birleştiren güçlü bir açık kaynak kitaplığı olarak öne çıkıyor.
Tess4J kitaplığı, Java geliştiricilerine OCR özelliklerini uygulamalarına sorunsuz bir şekilde dahil etme gücü verir. Orijinal olarak Hewlett-Packard tarafından geliştirilen ve şu anda Google tarafından bakımı yapılan bir OCR motoru olan Tesseract için bir Java sarmalayıcıdır. Tess4J, doğruluğuyla tanınan Tesseract'ın OCR motorunu kullanır. Görüntülerden güvenilir metin çıkarımı sağlamak ve yüksek kaliteli sonuçlar sağlamak için gelişmiş algoritmalar ve makine öğrenimi teknikleri kullanır. Java uygulamalarında OCR entegrasyonunu mümkün kılarak Windows, Linux ve macOS gibi farklı platformlarla uyumlu olmasını sağlar.
Tess4J, basit ve iyi belgelenmiş bir API sunarak geliştiricilerin OCR yeteneklerini Java uygulamalarına entegre etmesini kolaylaştırır. Tess4J, geliştiricilerin güçlü OCR yeteneklerini Java uygulamalarına entegre etmelerine olanak tanıyan çok yönlü ve sağlam bir açık kaynaklı kitaplıktır. Birden fazla dil desteği, görüntü ön işleme özellikleri, PDF dönüştürme yetenekleri ve güven puanlama sistemi ile Tess4J, metin çıkarma ve belge analizi için etkili ve güvenilir bir çözüm sunar.
Tess4J'ye Başlarken
Tess4J'yi kurmanın önerilen yolu Maven'i kullanmaktır. Sorunsuz bir kurulum için lütfen aşağıdaki komutu kullanın.
Tess4J için Maven Bağımlılığı
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j;/artifactId>
<version>X.X.X</version>
</dependency>
</dependencies>
Tess4J'yi GitHub aracılığıyla yükleyin
git clone https://github.com/nguyenq/tess4j.git
Manuel olarak da yükleyebilirsiniz; En son sürüm dosyalarını doğrudan GitHub deposundan indirin.
Java API aracılığıyla İçerik Çıkarma
Açık kaynak Tess4J kitaplığı, yazılım geliştiricilerin Java uygulamaları içindeki çeşitli görüntü türlerinden metin çıkarmalarına olanak tanır. Kütüphane, görsellerden metin çıkarılmasına olanak tanıyarak uygulamaların metin içeriğini analiz etmesine ve işlemesine olanak tanır. Bu yetenek, duygu analizi, metin özetleme ve bilgi alma gibi alanlarda uygulama alanı bulur. Kitaplık ayrıca Tesseract OCR motorunun yüklenmesini, belirtilen görüntü üzerinde içerik çıkarma işlemini gerçekleştirmeyi ve çıkarılan metni konsola yazdırmayı da kolaylaştırır.
Java OCR Kitaplığını kullanarak İçerik Çıkarma işlemini gerçekleştirin
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class ContentExtractionExample {
public static void main(String[] args) {
// Path to the Tesseract OCR installation directory
String tessDataPath = "path/to/tesseract";
// Initialize Tesseract instance
Tesseract tesseract = new Tesseract();
tesseract.setDatapath(tessDataPath);
try {
// Set the language for OCR (e.g., "eng" for English)
tesseract.setLanguage("eng");
// Path to the image file for content extraction
String imagePath = "path/to/image.jpg";
// Perform content extraction
String extractedText = tesseract.doOCR(new File(imagePath));
System.out.println(extractedText);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
Java API aracılığıyla PDF'yi Düz Metne Dönüştürme
Açık kaynak Tess4J kitaplığı, PDF belgelerini Java uygulamalarına yüklemek ve düz metne dönüştürmek için eksiksiz işlevsellik sağlamıştır. Tess4J, aranabilir PDF belgelerini düz metne dönüştürerek geliştiricilerin PDF dosyalarından içerik çıkarmasına ve daha fazla analiz veya veri işleme gerçekleştirmesine olanak tanır. Aşağıdaki örnek, yazılım geliştiricilerin mevcut bir PDF dosyasını Java uygulamaları içinde nasıl düz metne dönüştürebileceklerini göstermektedir.
Mevcut bir PDF Dosyasını Düz Metne Nasıl Dönüştürürüz?
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFToTextConverter {
public static void main(String[] args) {
// Path to the PDF file
String filePath = "path/to/your/pdf/file.pdf";
try {
// Load the PDF document
PDDocument document = PDDocument.load(new File(filePath));
// Create an instance of Tesseract OCR engine
Tesseract tesseract = new Tesseract();
// Set the path to the tessdata directory (containing language data)
tesseract.setDatapath("path/to/your/tessdata/directory");
// Iterate over each page of the PDF document
for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
// Extract the text from the current page
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(pageIndex + 1);
stripper.setEndPage(pageIndex + 1);
String pageText = stripper.getText(document);
// Perform OCR on the extracted text
String ocrText = tesseract.doOCR(pageText);
// Output the OCR result
System.out.println("Page " + (pageIndex + 1) + " OCR Result:");
System.out.println(ocrText);
System.out.println("--------------------------------------");
}
// Close the PDF document
document.close();
} catch (IOException | TesseractException e) {
e.printStackTrace();
}
}
}