Open Source Java Library pro OCR Text & Image Processing
Přední bezplatná knihovna Java, která umožňuje vývojářům softwaru přidávat možnosti OCR do aplikací Java a provádět OCR na naskenovaných obrázcích a souborech PDF a snadno z nich extrahovat text.
Asprise OCR SDK for Java je výkonný open source Java SDK, který poskytuje schopnost provádět optické rozpoznávání znaků (OCR) na naskenovaných obrázcích, souborech PDF a dalších dokumentech. Díky svému snadno použitelnému rozhraní Java API může tato sada SDK pomoci vývojářům rychle a snadno přidat funkce OCR do jejich aplikací Java. OCR je velmi užitečná technologie, která počítačům umožňuje rozpoznávat text v obrázcích nebo dokumentech. Software OCR lze použít k převodu naskenovaných obrázků textu na digitální text, který lze upravovat, vyhledávat nebo zpracovávat v počítači.
Sada Asprise OCR SDK obsahuje několik důležitých funkcí pro zpracování činností souvisejících s OCR, jako je rychlé zpracování OCR, podpora několika jazyků, zařízení pro vylepšení obrazu, rozpoznaný text v různých formátech a mnoho dalších. Sada SDK je založena na pokročilé technologii OCR, která dokáže rozpoznat text v široké škále písem a jazyků. Knihovnu lze použít k vývoji aplikací pro Java applety, webové aplikace, komponenty Swing/JavaFX a podnikové aplikace JEE.
Sada Asprise OCR SDK umožňuje vývojářům softwaru vydávat rozpoznaný text v různých formátech, včetně prostého textu, PDF s možností vyhledávání a Microsoft Word. SDK dokáže rozpoznat text ve více než 100 jazycích, včetně angličtiny, čínštiny, japonštiny, arabštiny a mnoha dalších. Díky pokročilé technologii OCR, komplexní jazykové podpoře a snadno použitelnému rozhraní API může tato sada SDK pomoci vývojářům ušetřit čas a úsilí při vytváření aplikací OCR.
Začínáme s Asprise OCR SDK pro Java
Začínáme s Asprise OCR SDK pro Java Doporučeným způsobem instalace Asprise OCR SDK pro Java je použití Maven. Pro bezproblémovou instalaci použijte prosím následující příkaz.
Maven Dependency for Asprise OCR SDK for Java
<dependencies>
<dependency>
<groupId>com.asprise.ocr</groupId>
<artifactId>java-ocr-api;/artifactId>
<version>[15,)</version>
</dependency>
</dependencies>
Nainstalujte Asprise OCR SDK pro Javu přes GitHub
git clone https://github.com/Asprise/java-.net-ocr-api-library
Extrahujte text ve formátu prostého textu pomocí Java
Asprise OCR SDK pro Java poskytuje kompletní funkce pro extrahování textu z obrázků ve formátu prostého textu. Knihovna umožňuje uživatelům snadno získat textový obsah naskenovaných dokumentů nebo obrázků a použít jej pro další zpracování nebo analýzu. Chcete-li provést úlohu extrahování prostého textu, musíte nejprve načíst obrázek ze souboru, vstupního proudu nebo adresy URL a pomocí rozhraní API na načtený obrázek použít rozpoznávání OCR. Použijte příslušnou funkci k načtení rozpoznaného textu ve formátu prostého textu. Následující text ukazuje, jak načíst obrázek a rozpoznaný text jako prostý text a výsledek je vytištěn na konzole.
Načíst obrázek a rozpoznaný text prostřednictvím rozhraní Java API
import com.asprise.ocr.Ocr;
public class OCRTest {
public static void main(String[] args) throws Exception {
// Load image from file
Ocr ocr = new Ocr();
ocr.startEngine("eng", Ocr.SPEED_FASTEST);
String recognizedText = ocr.recognize(new File("image.png"), Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
// Print the plain text output
System.out.println("Recognized Text: " + recognizedText);
ocr.stopEngine();
}
}
Provádění různých operací OCR v aplikacích Java
Asprise OCR SDK pro Java API umožňuje vývojářům softwaru provádět různé operace OCR (optické rozpoznávání znaků) na různých typech dokumentů. Knihovna plně podporuje různé typy operací OCR, jako jsou obrazové soubory OCR, soubory OCR PDF, ručně psaný text OCR, více jazyků OCR, provádění OCR na části obrazu, provádění OCR na více vstupních souborech v jednom záběru, provádění OCR na určitou stránku ze zadaného souboru TIFF, dávkové zpracování OCR a mnoho dalších. Knihovna poskytuje výkonný a flexibilní nástroj pro provádění operací OCR na různých typech dokumentů. Díky podpoře více jazyků, souborů obrázků a PDF, ručně psaného textu a dávkového zpracování můžete rychle a přesně extrahovat text ze svých dokumentů.
Provádění OCR na více souborech prostřednictvím knihovny Java
String s = ocr.recognize("test.png;test2.jpg", -1, 0, 0, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
perform OCR on a PDF input file:
String s = ocr.recognize("test.pdf", -1, 100, 100, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
Podpora více vláken pomocí Asprise OCR
Asprise OCR SDK pro Java API obsahuje kompletní podporu pro multi-threading, která umožňuje vývojářům zpracovávat více úloh OCR současně. Tato funkce umožňuje vývojářům zlepšit výkon jejich aplikací OCR distribucí zpracování OCR mezi více vláken, která mohou běžet souběžně na více jádrech nebo procesorech. Podpora více vláken je vysoce přizpůsobitelná a umožňuje vývojářům vyladit počet vláken a enginů OCR tak, aby odpovídaly dostupným zdrojům a požadavkům na zpracování. Asprise OCR SDK for Java s podporou multi-threadingu poskytuje vývojářům výkonný a flexibilní nástroj pro vytváření vysoce výkonných OCR aplikací, které dokážou zpracovat velké objemy textu rychle a efektivně.
Psaní kódu pro správu složitého vlákna
OcrExecutorService oes =
new OcrExecutorService("eng", Ocr.SPEED_FASTEST, 4); // 4 threads
List> futures = oes.invokeAll(Arrays.asList(
new OcrExecutorService.OcrCallable(
new File[] {new File("test1.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML),
new OcrExecutorService.OcrCallable(
new File[] {new File("test2.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML)
);
System.out.println("Result of test1.png: " + futures.get(0).get());
System.out.println("Result of test2.png: " + futures.get(1).get());
oes.shutdown(); // stops all OCR engines and disposes all threads