Jan 24, 2015, 03:16 PM

parsing scripting pdf ruby ocr

Разобрать PDF документ с помощью ruby

У меня есть несколько документов PDF в папке, которые имеют определенную структуру:

Теперь я хочу иметь возможность анализировать информацию из PDF. Обратите внимание, что параграфы имеют различную длину.

Очевидно, я не прошу вас решить эту проблему для меня, но мне нужны некоторые указания относительно того, как этого можно достичь.

Я использовал nokogiri раньше, и технически мне нужно что-то подобное, но для PDF-файлов.

Таким образом, псевдо-результат для моего примера будет выглядеть так:

- ItemA
  - Title: ItemA
  - File: 123456789.pdf
  - Image: ImageA.png (the image was stored on disk)
  - Subtitle1: Content for subtitle 1
  - Subtitle2: Content for subtitle 2
  - Subtitle3: Content for subtitle 3
- TitleB
  - [...]

Ответы на вопрос(0)

Популярные вопросы

0 ответов

Возврат последнего введенного идентификатора без использования второго запроса

0 ответов

Получить базовый адрес процесса

0 ответов

Spring RedirectAttributes: addAttribute () против addFlashAttribute ()

0 ответов

Лучший способ удалить обработчик событий в jQuery?

0 ответов

Как включить Виртуальный хост на Xampp для Laravel?