Görüntülerdeki OCR işlemleri için Açık Kaynak PHP Kitaplığı
Tesseract PHP kütüphanesini kullanarak Resimler, Taranan Belgeler ve PDF'ler üzerinde OCR işlemlerini gerçekleştirmek için ücretsiz PHP Optik Karakter Tanıma API'si.
Mevcut çok sayıda OCR aracı arasında Tesseract OCR, yazılım geliştiricilerin çeşitli popüler görsel kaynaklardan metni tanımaya ve bunlardan metin çıkarmaya yönelik uygulamalar oluşturmasına olanak tanıyan en güçlü ve çok yönlü API'den biri olarak öne çıkıyor. PHP için Tesseract OCR, PHP uygulamalarında Tesseract OCR ile çalışmak için çok kullanışlı bir sarmalayıcıdır. PHP kütüphanesi için açık kaynaklı Tesseract OCR, görüntüyü ön işleme tabi tutarak OCR doğruluğunu artırabilir. Metnin görünürlüğünü artırmak ve tanınmayı engelleyebilecek tüm yapaylıkları ortadan kaldırmak için yeniden boyutlandırma, ikilileştirme, gürültü giderme ve eğrilik düzeltme gibi teknikler uygulanabilir.
PHP kütüphanesi için Tesseract OCR, PHP uygulamaları içindeki OCR sonuçlarını geliştirmek için çok dilli belgeleri işlemek, belirli diller için doğruluğu artırmak üzere OCR başlatma sırasında istenilen dil(ler)i belirlemek, sayfa bölümleme modları desteği, sayfa bölümlendirme modları desteği, Özel uygulamalar için tanıma doğruluğunun iyileştirilmesi, özel yazı tipleri veya semboller ya da belirli metin desenleri konusunda eğitim desteği, erişilebilirliğin geliştirilmesi, belge dijitalleştirme, metin analizi, veri çıkarma ve çok daha fazlası.
Önceden işlenmiş görüntüyü Tesseract OCR motoruna aktarmak için Tesseract PHP sarıcısını kullanın. Sarmalayıcı, OCR'yi yürütmek ve bunun sonucunda tanınan metni almak için işlevler sağlar. Çıkarılan metin, yazım denetimi, biçimlendirme veya dile özgü değişiklikler gibi ek işlem sonrası adımlar gerektirebilir. Symfony/string veya Text_LanguageDetect gibi PHP kütüphaneleri bu amaçlar için kullanılabilir. Yazılım geliştiricileri, Tesseract OCR'yi PHP projelerinize entegre ederek belge işlemeyi kolaylaştırabilir, veri çıkarmayı otomatikleştirebilir ve uygulamalarında yeni bir verimlilik ve erişilebilirlik düzeyinin kilidini açabilir.
PHP için Tesseract OCR'ye Başlarken
PHP için Tesseract OCR'yi kurmanın önerilen yolu Composer kullanmaktır. Sorunsuz bir kurulum için lütfen aşağıdaki komutu kullanın.
PHP için Tesseract OCR'yi Composer aracılığıyla yükleyin
$ composer require thiagoalessio/tesseract_ocr
PHP için Tesseract OCR'yi Github aracılığıyla yükleyin
git clone https://github.com/thiagoalessio/tesseract-ocr-for-php.git
Derlenmiş paylaşılan kitaplığı Github deposundan indirebilirsiniz.
PHP Uygulamalarındaki Görüntüden Metni Çıkarma
PHP için açık kaynaklı Tesseract OCR kitaplığı, PHP komutlarını kullanarak görüntülerden metin çıkarmak için bazı yararlı özellikler sağlamıştır. Kitaplık, çeşitli düzenleri ve metin düzenlemelerini yönetmek için farklı sayfa bölümleme modları sunar. Çıkarmak istediğiniz metni içeren görseli veya belgeyi yükleyerek çıkarma işlemini başlatın. Önceden işlenmiş görüntüyü Tesseract OCR motoruna aktarmak için Tesseract PHP sarıcısını kullanın. Sarmalayıcı, OCR'yi yürütmek ve bunun sonucunda tanınan metni almak için işlevler sağlar. Aşağıdaki örnek, PHP komutlarını kullanarak bir görüntünün yüklenmesi ve ondan metin çıkarılmasına ilişkin temel işlemi göstermektedir.
PHP Kodunu Kullanarak Resim Nasıl Yüklenir ve Metin Çıkarılır?
use TesseractOCR\TesseractOCR;
$imagePath = '/path/to/your/image.jpg';
$tesseract = new TesseractOCR($imagePath);
$tesseract->setLanguage('eng'); // Set the desired language for text recognition
$text = $tesseract->run();
echo $text;
PHP Uygulamalarında OCR Çıktısını Yönetme
PHP için açık kaynaklı Tesseract OCR kitaplığı, PHP uygulamalarında OCR'nin çıktı metnini kaydetmek ve bu metinlerle çalışmak için çok kullanışlı özellikler içerir. Çıkan metnin PDF, TXT, HTML, Word ve daha pek çok popüler formatta kaydedilmesine olanak tanır. Görüntüden çıkarılan tanınan metnin işlenmesine olanak sağlar. Uygulamanızın gereksinimlerine bağlı olarak çıkarılan metni daha fazla işlemeniz veya analiz etmeniz gerekebilir. Ortak görevler arasında veri doğrulama, metin temizleme, yazım denetimi, biçimlendirme, gelişmiş işleme için diğer sistemlerle entegrasyon veya dile özgü değişiklikler yer alır. Yazılım geliştiricileri; içgörü, duygu analizi veya konu modelleme elde etmek için belgelerden, sosyal medya akışlarından veya müşteri geri bildirimlerinden elde edilen büyük hacimli metin verilerini kolayca analiz edebilir.
PHP API aracılığıyla Görüntü Verilerini Alın, Boyutlandırın ve PDF Formatında Kaydedin
//Using Imagick
$data = $img->getImageBlob();
$size = $img->getImageLength();
//Using GD
ob_start();
// Note that you can use any format supported by tesseract
imagepng($img, null, 0);
$size = ob_get_length();
$data = ob_get_clean();
$ocr = new TesseractOCR();
$ocr->imageData($data, $size);
$ocr->run();
// Save the Output to PDF file
echo (new TesseractOCR('img.png'))
->configFile('pdf')
->setOutputFile('/PATH_TO_MY_OUTPUTFILE/searchable.pdf')
->run();