So extrahieren Sie Text aus einer PDF-Datei mit Apache PDFBox

Ich möchte mit Apache PDFBox Text aus einer bestimmten PDF-Datei extrahieren.

Ich habe diesen Code geschrieben:

PDFTextStripper pdfStripper = null;
PDDocument pdDoc = null;
COSDocument cosDoc = null;
File file = new File(filepath);

PDFParser parser = new PDFParser(new FileInputStream(file));
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
pdfStripper.setStartPage(1);
pdfStripper.setEndPage(5);
String parsedText = pdfStripper.getText(pdDoc);
System.out.println(parsedText);

Ich habe jedoch den folgenden Fehler erhalten:

Exception in thread "main" java.lang.NullPointerException
at org.apache.fontbox.afm.AFMParser.main(AFMParser.java:304)

Ich habe pdfbox-1.8.5.jar und fontbox-1.8.5.jar zum Klassenpfad hinzugefügt.

Bearbeiten

Ich fügte hinzuSystem.out.println("program starts"); an den Anfang des Programms.

Ich habe es ausgeführt, dann habe ich den gleichen Fehler wie oben undprogram starts wurde nicht in der Konsole angezeigt.

Ich glaube also, ich habe ein Problem mit dem Klassenpfad oder so.

Danke.

Antworten auf die Frage(5)

Ihre Antwort auf die Frage