Suchergebnisse für Anfrage "apache-tika"

4 die antwort

Wie erstelle ich ein benutzerdefiniertes Modell mit OpenNLP?

ich versuche zuObjekte extrahieren mögenNamen, Fähigkeiten aus dem Dokument mitOpenNLP Java API. aberEs werden keine richtigen Namen extrahiert. Ich benutze ...

2 die antwort

Apache Tika extrahieren gescannte PDF-Dateien

Ich habe einige Probleme mit Apache TIKA (Version 1.10). Ich habe einige PDF-Dateien erhalten, bei denen es sich nur um gescannte Papierstücke handelt. Das heißt, jede Seite ist nur ein Bild. Mein Ziel ist es, den Text der PDF-Dateien trotzdem ...

1 die antwort

Indizieren Sie den Inhalt von PDF-Dateien mit Apache Solr

TOP-Veröffentlichungen

2 die antwort

Mit TesseractOCRConfig Apache Tika können gescannte PDF-Dateien nicht extrahiert werden.

Meine PDF-Datei enthält gescannte Bilder und ich möchte Text daraus extrahieren. Was ich versucht habe: Ich habe es mit AutoDetectParsers versucht, aber keine Ausgabe. Ich folgte der Lösung inApache Tika extrahieren gescannte ...

4 die antwort

Wie parse ich HTML mit nutch und indexspezifischem Tag auf solr?

Ich habe Nutch und Solr installiert, um eine Website zu crawlen und darin zu suchen. Wie Sie wissen, können wir Meta-Tags von Webseiten mit dem Meta-Tags-Par...

2 die antwort

So indizieren Sie Textdateien mit apache solr

Ich wollte Textdateien indizieren. Nachdem ich viel gesucht hatte, lernte ich Apache Tika kennen. Jetzt habe ich an einigen Stellen, an denen ich Apache Tika...

1 die antwort

PDF-Aufzählungszeichen werden beim Parsen mit Apache Tika in Java als Fragezeichen angezeigt

Ich analysiere PDF-Dateien mit Apache Tika (tika-app-1.3) mit diesem Code:

2 die antwort

Wie vergleiche ich zwei PDFs programmgesteuert anhand visueller Unterschiede? [geschlossen]

Ich muss alle visuellen Unterschiede in den beiden PDF-Dateien vergleichen und ermitteln. Ich weiß, dass es einige Fragen zum Stapelüberlauf gibt, aber sie erfüllen meine Anforderungen nicht. Ich verwende derzeit PDFBox, um Bilder für Seiten in ...

2 die antwort

Extrahieren Sie Bilder aus PDF mit Apache Tika

Apache Tika 1.6 bietet die Möglichkeit, Inline-Bilder aus PDF-Dokumenten zu extrahieren. Ich habe jedoch Mühe gehabt, es zum Laufen zu bringen. Mein Anwendungsfall ist, dass ich einen Code möchte, der den Inhalt und die Bilder von allen ...

3 die antwort

Tika1.2 kann nicht mit solr4 konfiguriert werden