Parsen Sie ein PDF-Dokument mit ruby
Ich habe mehrere PDF-Dokumente in einem Ordner mit einer bestimmten Struktur:
Jetzt möchte ich in der Lage sein, die Informationen aus dem PDF zu analysieren. Bitte beachten Sie, dass die Absätze unterschiedlich lang sind.
atürlich bitte ich Sie nicht, das Problem für mich zu lösen, aber ich brauche einige Hinweise, wie dies erreicht werden kan
Ich habe Nokogiri schon einmal benutzt und technisch brauche ich so etwas, aber für PDFs.
So würde das Pseudo-Ergebnis für mein Beispiel so aussehen:
- ItemA
- Title: ItemA
- File: 123456789.pdf
- Image: ImageA.png (the image was stored on disk)
- Subtitle1: Content for subtitle 1
- Subtitle2: Content for subtitle 2
- Subtitle3: Content for subtitle 3
- TitleB
- [...]