1. Táirgí
  2.   OCR
  3.   PHP
  4.   PHP-Apache-Tika
 
  

API PHP Saor chun téacs & meiteashonraí a bhaint as PDF agus íomhánna

Ligeann leabharlann OCR PHP foinse oscailte téacs, meiteashonraí agus HTML a bhaint as PDF, DOCX, íomhánna (JPEG, PNG) & doiciméid eile i dteangacha iolracha laistigh de fheidhmchláir PHP.

Sa réimse forbartha bogearraí, is féidir go mbeadh sé deacair le téacs ó chineálacha éagsúla comhad a láimhseáil, ach is tasc coitianta é. Cibé an bhfuil tú ag cruthú córais chun doiciméid a bhainistiú, uirlis chun ábhar a anailísiú, nó innill chuardaigh, tá sé ríthábhachtach go mbeidh tú in ann téacs a bhaint as PDFanna, doiciméid Word, scarbhileoga, agus formáidí comhaid eile. Seo áit a bhíonn leabharlann PHP-Apache-Tika úsáideach. Is uirlis sholúbtha é Apache Tika a dheartha chun tascanna anailíse ábhair a bhainistiú. Is féidir leat Tika a úsáid chun meiteashonraí agus téacs a bhaint ó chineálacha éagsúla comhad cosúil le PDFanna, comhaid Microsoft Office, agus íomhánna. Bhí Tika cláraithe i Java ar dtús. De ghnáth, socraítear é mar fhreastalaí ar a shon féin, rud a fhágann go bhfuil sé inrochtana trí HTTP. Ligeann an modh seo d’fhormhór na dteangacha cláir, mar PHP, rochtain a fháil ar chumais láidre Tika gan gá le próisis parsála casta a chruthú ón bhun.

Tacaíonn an leabharlann le go leor gnéithe cosúil le baint téacs agus HTML, baint meiteashonraí, láimhseáil earráidí níos fearr, aithint OCR, meiteashonraí caighdeánaithe doiciméad, tacaíocht acmhainní áitiúla agus cianda, agus go leor eile. Ceanglaíonn leabharlann PHP-Apache-Tika feidhmchláir PHP le freastalaí Apache Tika. Seachas do parsálaithe nó tiontair féin a thógáil, is féidir leat brath ar an leabharlann seo chun doiciméid a sheoladh chuig an bhfreastalaí Tika agus téacs glan nó meiteashonraí a bhaintear ar ais. Ní hamháin go simplíonnann sé an próiseas forbartha ach cinntíonn sé freisin go mbainfidh d’iarratas leas as feabhsúcháin leanúnacha Tika agus tacaíocht leathan formáidí. Cibé an bhfuil tú ag forbairt córas bainistíochta doiciméad casta nó uirlis anailíse ábhair éadrom, soláthraíonn leabharlann PHP-Apache-Tika réiteach iontaofa agus solúbtha.

Previous Next

Ag Tosú le PHP-Apache-Tika

Is é an bealach molta chun PHP-Apache-Tika a shuiteáil trí Composer. Bain úsáid as an ordú seo a leanas le haghaidh suiteáil réidh.

Suiteáil PHP-Apache-Tika trí Composer

composer require vaites/php-apache-tika

Suiteáil PHP-Apache-Tika trí Github

git clone https://github.com/fizzday/OcrPHP.git 

Is féidir leat an leabharlann roinnte tiomsaithe a íoslódáil ón stór Github.

Baint Téacs agus HTML trí PHP

Ceann de na príomhghnéithe den leabharlann PHP-Apache-Tika ná a chumas téacs a bhaint as formáidí éagsúla doiciméad. Is féidir é a úsáid go háirithe le feidhmeanna cuardaigh nó uirlisí anailíse ábhair. Tacaíonn an leabharlann le baint téacs simplí ó doiciméid, rud a fhágann go bhfuil sé níos éasca innéacsú, cuardach, nó an t-ábhar a anailísiú. Seo mír chód a thaispeánann conas a sheolann TikaClient an doiciméad chuig an bhfreastalaí Tika agus an t-ábhar téacs simplí a aisghabháil, ag ullmhú é le haghaidh próiseála breise nó innéacsú.

Conas Téacs a Bhain ó Cháipéis laistigh de Aipí PHP?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client with the Tika server URL
$client = new TikaClient('http://localhost:9998');

// Define the path to the document (e.g., PDF, DOCX, etc.)
$filePath = '/path/to/your/document.pdf';

try {
    // Extract text content from the document
    $extractedText = $client->extract($filePath);
    echo "Extracted Text:\n" . $extractedText;
} catch (\Exception $e) {
    echo "Error extracting text: " . $e->getMessage();
}

Baint Meiteashonraí trí Leabharlann PHP

Seachas téacs amháin, coimeádann doiciméid go minic meiteashonraí luachmhara cosúil le faisnéis údar, dátaí cruthaithe, agus cineálacha comhad. Is féidir le leabharlann PHP-Apache-Tika na meiteashonraí seo a bhaint, rud a ligeann duit feidhmchláir níos saibhre a thógáil. Taispeánann an sampla seo conas meiteashonraí a fháil ó cháipéis. D’fhéadfadh an eagar toradh a bheith ina bhfuil mionsonraí éagsúla ag brath ar an gcineál comhad agus a n-ábhar.

Conas Meiteashonraí a Bhain le Leabharlann PHP?

require_once 'vendor/autoload.php';

use Vaites\ApacheTika\TikaClient;

// Initialize the Tika client
$client = new TikaClient('http://localhost:9998');

// Specify the document file path
$filePath = '/path/to/your/document.pdf';

try {
    // Extract metadata from the document
    $metadata = $client->getMetadata($filePath);
    echo "Extracted Metadata:\n";
    print_r($metadata);
} catch (\Exception $e) {
    echo "Error extracting metadata: " . $e->getMessage();
}

Láimhseáil Formáidí Ilchineálacha

Tá cumhacht Apache Tika i tacaíocht a chuid formáidí ilchineálacha. Cibé go bhfuil tú ag baint le PDFanna, DOCanna, íomhánna, nó fiú formáidí comhaid níos lú coitianta, cabhraíonn an leabharlann seo le cinntiú go bhféadfaidh tú na sonraí riachtacha a bhaint gan imní faoi na gnéithe speisialta de gach formáid. Samhlaigh go bhfuil tú ag forbairt córas bainistíochta doiciméad a ligeann d’úsáideoirí comhaid éagsúla a uasluchtú. Bheadh sé riachtanach an leabharlann a úsáid chun ábhar agus meiteashonraí a chinneadh do gach comhad:

 Gaeilge