So extrahieren Sie Text aus einer PDF-Datei mit Apache PDFBox

Question

May 22, 2014, 07:38 PM

So extrahieren Sie Text aus einer PDF-Datei mit Apache PDFBox

Ich möchte mit Apache PDFBox Text aus einer bestimmten PDF-Datei extrahieren.

Ich habe diesen Code geschrieben:

PDFTextStripper pdfStripper = null;
PDDocument pdDoc = null;
COSDocument cosDoc = null;
File file = new File(filepath);

PDFParser parser = new PDFParser(new FileInputStream(file));
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
pdfStripper.setStartPage(1);
pdfStripper.setEndPage(5);
String parsedText = pdfStripper.getText(pdDoc);
System.out.println(parsedText);

Ich habe jedoch den folgenden Fehler erhalten:

Exception in thread "main" java.lang.NullPointerException
at org.apache.fontbox.afm.AFMParser.main(AFMParser.java:304)

Ich habe pdfbox-1.8.5.jar und fontbox-1.8.5.jar zum Klassenpfad hinzugefügt.

Bearbeiten

Ich fügte hinzuSystem.out.println("program starts"); an den Anfang des Programms.

Ich habe es ausgeführt, dann habe ich den gleichen Fehler wie oben undprogram starts wurde nicht in der Konsole angezeigt.

Ich glaube also, ich habe ein Problem mit dem Klassenpfad oder so.

Danke.

Antworten auf die Frage(5)

Top Fragen

0 die antwort

Wicket 6 - Erfassen von HttpServletRequest-Parametern in mehrteiliger Form?

0 die antwort

Wie scanne und konfiguriere ich Profile in AutoMapper automatisch?

0 die antwort

Asynchrone Aufrufe und Rekursion mit Node.js

0 die antwort

MYSQL-Suchfeldmethode

0 die antwort

SBT: Abhängigkeit von anderen SBT-Projekten ohne Veröffentlichung

Du bist sehr aktiv! Es ist großartig!

So extrahieren Sie Text aus einer PDF-Datei mit Apache PDFBox

Antworten auf die Frage(5)

Ihre Antwort auf die Frage

Top Fragen