Разобрать PDF документ с помощью ruby
У меня есть несколько документов PDF в папке, которые имеют определенную структуру:
Теперь я хочу иметь возможность анализировать информацию из PDF. Обратите внимание, что параграфы имеют различную длину.
Очевидно, я не прошу вас решить эту проблему для меня, но мне нужны некоторые указания относительно того, как этого можно достичь.
Я использовал nokogiri раньше, и технически мне нужно что-то подобное, но для PDF-файлов.
Таким образом, псевдо-результат для моего примера будет выглядеть так:
- ItemA
- Title: ItemA
- File: 123456789.pdf
- Image: ImageA.png (the image was stored on disk)
- Subtitle1: Content for subtitle 1
- Subtitle2: Content for subtitle 2
- Subtitle3: Content for subtitle 3
- TitleB
- [...]