Как извлечь текст из файла PDF в Perl?

Question

Jul 16, 2009, 07:42 PM

Как извлечь текст из файла PDF в Perl?

Я пытаюсь извлечь текст из файлов PDF с помощью Perl. Я используюpdftotext.exe из командной строки (т.е. с использованием Perlsystem функция) для извлечения текста из файлов PDF, этот метод работает отлично.

Проблема в том, что у нас есть символы вроде & # x3B1 ;, & # x3B2; и другие специальные символы в файлах PDF, которые не отображаются в сгенерированном текстовом файле. Также несколько лишних пробелов добавляются случайным образом в тексте.

Существует ли лучший и более надежный способ извлечения текста из PDF-файлов, чтобы в текст входили все символы, такие как & # x3B1 ;, & # x3B2; и т. д. и текст будет точно соответствовать тексту в PDF (т. е. без лишних пробелов)?

Как извлечь текст из файла PDF в Perl?

Ответы на вопрос(9)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Как извлечь текст из файла PDF в Perl?

Ответы на вопрос(9)

Ваш ответ на вопрос

Популярные вопросы