Разобрать PDF документ с помощью ruby

У меня есть несколько документов PDF в папке, которые имеют определенную структуру:

Теперь я хочу иметь возможность анализировать информацию из PDF. Обратите внимание, что параграфы имеют различную длину.

Очевидно, я не прошу вас решить эту проблему для меня, но мне нужны некоторые указания относительно того, как этого можно достичь.

Я использовал nokogiri раньше, и технически мне нужно что-то подобное, но для PDF-файлов.

Таким образом, псевдо-результат для моего примера будет выглядеть так:

- ItemA
  - Title: ItemA
  - File: 123456789.pdf
  - Image: ImageA.png (the image was stored on disk)
  - Subtitle1: Content for subtitle 1
  - Subtitle2: Content for subtitle 2
  - Subtitle3: Content for subtitle 3
- TitleB
  - [...]

Ответы на вопрос(0)

Ваш ответ на вопрос