Como extrair texto de um arquivo PDF com o Apache PDFBox
Gostaria de extrair texto de um determinado arquivo PDF com o Apache PDFBox.
Eu escrevi este código:
PDFTextStripper pdfStripper = null;
PDDocument pdDoc = null;
COSDocument cosDoc = null;
File file = new File(filepath);
PDFParser parser = new PDFParser(new FileInputStream(file));
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
pdfStripper.setStartPage(1);
pdfStripper.setEndPage(5);
String parsedText = pdfStripper.getText(pdDoc);
System.out.println(parsedText);
No entanto, eu recebi o seguinte erro:
Exception in thread "main" java.lang.NullPointerException
at org.apache.fontbox.afm.AFMParser.main(AFMParser.java:304)
Adicionei pdfbox-1.8.5.jar e fontbox-1.8.5.jar ao caminho da classe.
Editar
Eu adicioneiSystem.out.println("program starts");
para o início do programa.
Eu executei, então recebi o mesmo erro mencionado acima eprogram starts
não apareceu no console.
Portanto, acho que tenho um problema com o caminho da classe ou algo assim.
Obrigado.