Это общедоступный экстрактор текста PDF, полностью написанный на чистом PHP, а это значит, что вам не нужно полагаться на внешние команды. Он предоставляет простой интерфейс для извлечения текста:

рочитать PDF-файл и поместить содержимое в строку? Использование языка PHP.

 lolalola24 янв. 2011 г., 12:09
Мне нужно получить чистый текст из PDF-файлов. Когда я получаю текст из PDF-файлов, мне нужно вставить этот текст в БД.
 Linus Kleen24 янв. 2011 г., 11:03
использованиеfile_get_contents если вам нужны необработанные двоичные данные или обновите свой вопрос и скажите нам, что вы действительно хотите.

Ответы на вопрос(5)

которое поставляется с пакетом Xpdf на Linux. Затем команду popen можно использовать для передачи вывода pdftotext в строку:

$mystring = "";
$fd = popen("/usr/bin/pdftotext blah.pdf","r");
if ($fd) {
    while (($myline = fgets($fd)) !== false) {
        $mystring .= $myline;
    }
}
 kurdtpage09 нояб. 2017 г., 01:58
Ссылка для скачивания в формате xpdf:xpdfreader.com/download.html и ссылка на попен:php.net/manual/en/function.popen.php

PDF-файлов. Руководство по установке:http://www.acquia.com/blog/use-apache-solr-search-files

и окончательный код прост:

$string = "";
$fd = popen("java -jar yourpathtotika/tika-app-1.3.jar -t yourpathtopdf/sample.pdf","r");
while (!feof($fd)) { 
$buffer = fgets($fd, 4096); 
$string .= $buffer;
}
echo $string;
Решение Вопроса
 Krzysztof Trzos15 февр. 2016 г., 14:51
Нет. Не работает.
 lolalola24 янв. 2011 г., 12:10
Спасибо, но с этой функцией я всегда получаю "ложное" значение.
 atif22 окт. 2012 г., 11:22
очень помог мне) спасибо

вы можете добавить функциональность в соответствии с вашими потребностями.

PDF2Text - Pastebin

Вероятно, это поможет вам добавить функциональность:

http://www.adobe.com/devnet/pdf/pdf_reference.html

http://www.adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/PDF32000_2008.pdf

Если это не работает, проверьте, можете ли вы выделить / отметить свой текст при открытии в Adobe Reader (если вы не можете, текст в вашем файле, вероятно, сохранен как геометрические кривые), проверьте также кодировку.

http://www.pdftotext.eu

Это общедоступный экстрактор текста PDF, полностью написанный на чистом PHP, а это значит, что вам не нужно полагаться на внешние команды. Он предоставляет простой интерфейс для извлечения текста:

include ( 'PdfToText.phpclass' ) ;
$pdf = new PdfToText ( 'mysample.pdf' ) ;
echo "PDF contents are : " . $pdf -> Text . "\n" ;

Ваш ответ на вопрос