Parsen Sie ein PDF-Dokument mit ruby

Question

Jan 24, 2015, 03:16 PM

Parsen Sie ein PDF-Dokument mit ruby

Ich habe mehrere PDF-Dokumente in einem Ordner mit einer bestimmten Struktur:

Jetzt möchte ich in der Lage sein, die Informationen aus dem PDF zu analysieren. Bitte beachten Sie, dass die Absätze unterschiedlich lang sind.

atürlich bitte ich Sie nicht, das Problem für mich zu lösen, aber ich brauche einige Hinweise, wie dies erreicht werden kan

Ich habe Nokogiri schon einmal benutzt und technisch brauche ich so etwas, aber für PDFs.

So würde das Pseudo-Ergebnis für mein Beispiel so aussehen:

- ItemA
  - Title: ItemA
  - File: 123456789.pdf
  - Image: ImageA.png (the image was stored on disk)
  - Subtitle1: Content for subtitle 1
  - Subtitle2: Content for subtitle 2
  - Subtitle3: Content for subtitle 3
- TitleB
  - [...]

Antworten auf die Frage(4)

Top Fragen

0 die antwort

Kann ich eine Fluent NHibernate-Fremdschlüsselkonvention erstellen, die den Namen des übergeordneten Schlüssels enthält?

0 die antwort

Alternativen für das automatisierte Testen der Front-End-Leistung von Webanwendungen [geschlossen]

0 die antwort

Wie verspotte ich einen Akka-Schauspieler beim Unit-Test einer Klasse?

0 die antwort

MMAP-Problem, reserviert große Mengen an Speicher

0 die antwort

Wie JetBrain IntelliJ IDEA Java zum Booten auswählt

Du bist sehr aktiv! Es ist großartig!

Parsen Sie ein PDF-Dokument mit ruby

Antworten auf die Frage(4)

Ihre Antwort auf die Frage

Top Fragen