Apache Tika extrahieren gescannte PDF-Dateien

Question

Sep 02, 2015, 03:13 PM

Apache Tika extrahieren gescannte PDF-Dateien

Ich habe einige Probleme mit Apache TIKA (Version 1.10). Ich habe einige PDF-Dateien erhalten, bei denen es sich nur um gescannte Papierstücke handelt. Das heißt, jede Seite ist nur ein Bild. Mein Ziel ist es, den Text der PDF-Dateien trotzdem zu extrahieren.

Mein Tesseract ist richtig eingerichtet und das Extrahieren von JPG- und PNG-Dateien funktioniert wie ein Zauber. Der Code, den ich verwende, sieht so aus (ohne Rücksicht auf die fehlende Excetion-Behandlung):

public String extractText(InputStream stream) {
    AutoDetectParser parser = new AutoDetectParser();
    BodyContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
    Metadata metadata = new Metadata();
    ParseContext context = new ParseContext();
    parser.parse(stream, handler, metadata, context);
    String text = handler.toString();
    return text;
}

Ich habe viel gesucht, aber ich habe keine Lösungen gefunden, die für mich funktionieren. Ich habe das @ schon ausprobiesetExtractInlineImages Methode desPDFParserConfig Klasse, aber das hat nichts geändert. Eingebettete Dokumente mit einem benutzerdefinierten @ extrahierParsingEmbeddedDocumentExtractor hat eingebettete Ressourcen einer Dokumentdatei extrahiert, jedoch nicht für meine PDF-Dateien.

Es wäre großartig, wenn jemand von euch helfen könnte:)