مكتبة جافا مفتوحة المصدر لمعالجة النصوص والصور بالتعرف الضوئي على الحروف (OCR).
مكتبة Java مجانية رائدة تسمح لمطوري البرامج بإضافة إمكانيات التعرف الضوئي على الحروف إلى تطبيقات Java وإجراء التعرف الضوئي على الحروف على الصور الممسوحة ضوئيًا وملفات PDF لاستخراج النص منها بسهولة.
يعد Asprise OCR SDK for Java أحد برامج Java SDK القوية مفتوحة المصدر التي توفر القدرة على إجراء التعرف البصري على الأحرف (OCR) على الصور الممسوحة ضوئيًا وملفات PDF والمستندات الأخرى. بفضل Java API سهلة الاستخدام، يمكن لـ SDK مساعدة المطورين على إضافة إمكانات التعرف الضوئي على الحروف إلى تطبيقات Java الخاصة بهم بسرعة وسهولة. تعد تقنية التعرف الضوئي على الحروف (OCR) تقنية مفيدة جدًا تمكن أجهزة الكمبيوتر من التعرف على النص الموجود في الصور أو المستندات. يمكن استخدام برنامج التعرف الضوئي على الحروف (OCR) لتحويل الصور النصية الممسوحة ضوئيًا إلى نص رقمي يمكن تحريره أو البحث فيه أو معالجته بواسطة الكمبيوتر.
تتضمن Asprise OCR SDK العديد من الميزات المهمة للتعامل مع الأنشطة ذات الصلة بالتعرف الضوئي على الحروف، مثل المعالجة السريعة للتعرف الضوئي على الحروف، ودعم العديد من اللغات، ومرفق تحسين الصورة، والنص الذي تم التعرف عليه في مجموعة متنوعة من التنسيقات، وغير ذلك الكثير. يعتمد SDK على تقنية التعرف الضوئي على الحروف (OCR) المتقدمة التي يمكنها التعرف على النص بمجموعة واسعة من الخطوط واللغات. يمكن استخدام المكتبة لتطوير تطبيقات تطبيقات Java وتطبيقات الويب ومكونات Swing/JavaFX وتطبيقات مؤسسة JEE.
يسمح Asprise OCR SDK لمطوري البرامج بإخراج نص تم التعرف عليه بمجموعة متنوعة من التنسيقات، بما في ذلك النص العادي، وPDF القابل للبحث، وMicrosoft Word. يمكن لـ SDK التعرف على النص بأكثر من 100 لغة، بما في ذلك الإنجليزية والصينية واليابانية والعربية وغيرها الكثير. بفضل تقنية التعرف الضوئي على الحروف المتقدمة ودعم اللغة الشامل وواجهة برمجة التطبيقات سهلة الاستخدام، يمكن لمجموعة SDK هذه مساعدة المطورين على توفير الوقت والجهد عند إنشاء تطبيقات التعرف الضوئي على الحروف.
البدء باستخدام Asprise OCR SDK لـ Java
البدء باستخدام Asprise OCR SDK لـ Java الطريقة الموصى بها لتثبيت Asprise OCR SDK لـ Java هي استخدام Maven. الرجاء استخدام الأمر التالي للتثبيت السلس.
تبعية Maven لـ Asprise OCR SDK لـ Java
<dependencies>
<dependency>
<groupId>com.asprise.ocr</groupId>
<artifactId>java-ocr-api;/artifactId>
<version>[15,)</version>
</dependency>
</dependencies>
قم بتثبيت Asprise OCR SDK لـ Java عبر GitHub
git clone https://github.com/Asprise/java-.net-ocr-api-library
استخرج النص بتنسيق نص عادي عبر Java
توفر Asprise OCR SDK for Java وظائف كاملة لاستخراج النص من الصور بتنسيق نص عادي. تتيح المكتبة للمستخدمين إمكانية استرداد المحتوى النصي للمستندات أو الصور الممسوحة ضوئيًا بسهولة، واستخدامها لمزيد من المعالجة أو التحليل. لتحقيق مهمة استخراج النص العادي، تحتاج أولاً إلى تحميل الصورة من ملف أو دفق إدخال أو عنوان URL وتطبيق التعرف الضوئي على الحروف (OCR) على الصورة المحملة باستخدام واجهة برمجة التطبيقات (API). استخدم الوظيفة المناسبة لاسترداد النص الذي تم التعرف عليه بتنسيق نص عادي. يوضح ما يلي كيفية تحميل صورة، والتعرف على النص كنص عادي، وتتم طباعة النتيجة على وحدة التحكم.
تحميل الصورة والنص الذي تم التعرف عليه عبر Java API
import com.asprise.ocr.Ocr;
public class OCRTest {
public static void main(String[] args) throws Exception {
// Load image from file
Ocr ocr = new Ocr();
ocr.startEngine("eng", Ocr.SPEED_FASTEST);
String recognizedText = ocr.recognize(new File("image.png"), Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
// Print the plain text output
System.out.println("Recognized Text: " + recognizedText);
ocr.stopEngine();
}
}
تنفيذ عمليات التعرف الضوئي على الحروف المختلفة في تطبيقات Java
يسمح Asprise OCR SDK for Java API لمطوري البرامج بتنفيذ العديد من عمليات OCR (التعرف البصري على الأحرف) على أنواع مختلفة من المستندات. تدعم المكتبة بشكل كامل أنواعًا مختلفة من عمليات التعرف الضوئي على الحروف، مثل ملفات صور التعرف الضوئي على الحروف، وملفات PDF للتعرف الضوئي على الحروف، والنص المكتوب بخط اليد للتعرف الضوئي على الحروف، ولغات التعرف الضوئي على الحروف المتعددة، وإجراء التعرف الضوئي على الحروف على جزء من الصورة، وإجراء التعرف الضوئي على الحروف على ملفات إدخال متعددة في لقطة واحدة، وإجراء التعرف الضوئي على الحروف على جزء من الصورة. صفحة معينة من ملف TIFF المحدد، ومعالجة OCR المجمعة وغيرها الكثير. توفر المكتبة أداة قوية ومرنة لإجراء عمليات التعرف الضوئي على الحروف (OCR) على أنواع مختلفة من المستندات. بفضل دعمه للغات المتعددة، وملفات الصور وملفات PDF، والنص المكتوب بخط اليد، ومعالجة الدفعات، يمكنك استخراج النص من مستنداتك بسرعة ودقة.
إجراء التعرف الضوئي على الحروف على ملفات متعددة عبر مكتبة Java
String s = ocr.recognize("test.png;test2.jpg", -1, 0, 0, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
perform OCR on a PDF input file:
String s = ocr.recognize("test.pdf", -1, 100, 100, 400, 200,
Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT);
دعم تعدد الخيوط باستخدام Asprise OCR
تتضمن Asprise OCR SDK for Java API دعمًا كاملاً لسلاسل العمليات المتعددة، مما يسمح للمطورين بمعالجة مهام التعرف الضوئي على الحروف المتعددة في وقت واحد. تتيح هذه الميزة للمطورين تحسين أداء تطبيقات التعرف الضوئي على الحروف (OCR) الخاصة بهم عن طريق توزيع معالجة التعرف الضوئي على الحروف (OCR) عبر مؤشرات ترابط متعددة، والتي يمكن تشغيلها بشكل متزامن على مراكز أو معالجات متعددة. يعد دعم الخيوط المتعددة قابلاً للتخصيص بدرجة كبيرة، مما يسمح للمطورين بضبط عدد الخيوط ومحركات التعرف الضوئي على الحروف لتتناسب مع الموارد المتاحة ومتطلبات المعالجة. إلى حد كبير، يوفر دعم Asprise OCR SDK لـ Java متعدد الخيوط للمطورين أداة قوية ومرنة لإنشاء تطبيقات OCR عالية الأداء يمكنها معالجة كميات كبيرة من النص بسرعة وكفاءة.
كتابة رمز إدارة المواضيع الصعبة
OcrExecutorService oes =
new OcrExecutorService("eng", Ocr.SPEED_FASTEST, 4); // 4 threads
List> futures = oes.invokeAll(Arrays.asList(
new OcrExecutorService.OcrCallable(
new File[] {new File("test1.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML),
new OcrExecutorService.OcrCallable(
new File[] {new File("test2.png")},
Ocr.RECOGNIZE_TYPE_ALL, Ocr.OUTPUT_FORMAT_XML)
);
System.out.println("Result of test1.png: " + futures.get(0).get());
System.out.println("Result of test2.png: " + futures.get(1).get());
oes.shutdown(); // stops all OCR engines and disposes all threads