Parsen Sie ein PDF-Dokument mit ruby

Ich habe mehrere PDF-Dokumente in einem Ordner mit einer bestimmten Struktur:

Jetzt möchte ich in der Lage sein, die Informationen aus dem PDF zu analysieren. Bitte beachten Sie, dass die Absätze unterschiedlich lang sind.

atürlich bitte ich Sie nicht, das Problem für mich zu lösen, aber ich brauche einige Hinweise, wie dies erreicht werden kan

Ich habe Nokogiri schon einmal benutzt und technisch brauche ich so etwas, aber für PDFs.

So würde das Pseudo-Ergebnis für mein Beispiel so aussehen:

- ItemA
  - Title: ItemA
  - File: 123456789.pdf
  - Image: ImageA.png (the image was stored on disk)
  - Subtitle1: Content for subtitle 1
  - Subtitle2: Content for subtitle 2
  - Subtitle3: Content for subtitle 3
- TitleB
  - [...]

Antworten auf die Frage(4)

Ihre Antwort auf die Frage