Suchergebnisse für Anfrage "apache-tika"

2 die antwort

Wie vergleiche ich zwei PDFs programmgesteuert anhand visueller Unterschiede? [geschlossen]

Ich muss alle visuellen Unterschiede in den beiden PDF-Dateien vergleichen und ermitteln. Ich weiß, dass es einige Fragen zum Stapelüberlauf gibt, aber sie erfüllen meine Anforderungen nicht. Ich verwende derzeit PDFBox, um Bilder für Seiten in ...

2 die antwort

Extrahieren Sie Bilder aus PDF mit Apache Tika

Apache Tika 1.6 bietet die Möglichkeit, Inline-Bilder aus PDF-Dokumenten zu extrahieren. Ich habe jedoch Mühe gehabt, es zum Laufen zu bringen. Mein Anwendungsfall ist, dass ich einen Code möchte, der den Inhalt und die Bilder von allen ...

6 die antwort

Wie indiziere ich Dokumente in SOLR?

Im läuft Solr 1.4 auf Ubuntu 10.04 (installiert über apt-get solr-tomcat) und es scheint gut zu funktionieren. Ich habe einige Schwierigkeiten, kohärente Informationen darüber zu finden, wie man Dokumente indiziert. Ich bin neu bei SOLR, also ...

TOP-Veröffentlichungen

2 die antwort

Apache Tika extrahieren gescannte PDF-Dateien

Ich habe einige Probleme mit Apache TIKA (Version 1.10). Ich habe einige PDF-Dateien erhalten, bei denen es sich nur um gescannte Papierstücke handelt. Das heißt, jede Seite ist nur ein Bild. Mein Ziel ist es, den Text der PDF-Dateien trotzdem ...

4 die antwort

Tika-Parsers Bereitstellungsproblem bei Wildfly

Als Teil einer Webanwendung muss ich den Textinhalt verschiedener eingehender Dateien analysieren. Dies sollte ganz einfach mit @ se Tika-Parser, aber sobald ich versuche, meine Webapp auf @ bereitzustell Wildfly (getestet V.8.2.1 ...

2 die antwort

Mit TesseractOCRConfig Apache Tika können gescannte PDF-Dateien nicht extrahiert werden.

Meine PDF-Datei enthält gescannte Bilder und ich möchte Text daraus extrahieren. Was ich versucht habe: Ich habe es mit AutoDetectParsers versucht, aber keine Ausgabe. Ich folgte der Lösung inApache Tika extrahieren gescannte ...