Apache Tika extrahieren gescannte PDF-Dateien
Ich habe einige Probleme mit Apache TIKA (Version 1.10). Ich habe einige PDF-Dateien erhalten, bei denen es sich nur um gescannte Papierstücke handelt. Das heißt, jede Seite ist nur ein Bild. Mein Ziel ist es, den Text der PDF-Dateien trotzdem zu extrahieren.
Mein Tesseract ist richtig eingerichtet und das Extrahieren von JPG- und PNG-Dateien funktioniert wie ein Zauber. Der Code, den ich verwende, sieht so aus (ohne Rücksicht auf die fehlende Excetion-Behandlung):
public String extractText(InputStream stream) {
AutoDetectParser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
Metadata metadata = new Metadata();
ParseContext context = new ParseContext();
parser.parse(stream, handler, metadata, context);
String text = handler.toString();
return text;
}
Ich habe viel gesucht, aber ich habe keine Lösungen gefunden, die für mich funktionieren. Ich habe das @ schon ausprobiesetExtractInlineImages
Methode desPDFParserConfig
Klasse, aber das hat nichts geändert. Eingebettete Dokumente mit einem benutzerdefinierten @ extrahierParsingEmbeddedDocumentExtractor
hat eingebettete Ressourcen einer Dokumentdatei extrahiert, jedoch nicht für meine PDF-Dateien.
Es wäre großartig, wenn jemand von euch helfen könnte:)