In Hadoop gespeicherte Dokumente durchsuchen - welches Tool verwenden?

Ich bin verloren in: Hadoop, Hbase, Lucene, Carrot2, Cloudera, Tika, ZooKeeper, Solr, Katta, Cascading, POI ...

Wenn Sie über das eine lesen, können Sie oft sicher sein, dass jedes der anderen Tools erwähnt wird.

Ich erwarte nicht, dass Sie mir jedes Werkzeug erklären - sicher nicht. Wenn Sie mir helfen könnten, dieses Set für mein bestimmtes Szenario einzugrenzen, wäre es großartig. Bisher bin ich mir nicht sicher, welches der oben genannten Kriterien passt, und es scheint (wie immer), dass es mehr als eine Möglichkeit gibt, das zu tun, was zu tun ist.

Das Szenario ist: 500 GB - ~ 20 TB Dokumente, die in Hadoop gespeichert sind. Textdokumente in verschiedenen Formaten: E-Mail, Doc, PDF, Odt. Metadaten zu den in der SQL-Datenbank gespeicherten Dokumenten (Absender, Empfänger, Datum, Abteilung usw.) Die Hauptquelle für Dokumente ist ExchangeServer (E-Mails und Anhänge), aber nicht nur. Nun zur Suche: Benutzer müssen in der Lage sein, komplexe Volltextsuchen über diese Dokumente durchzuführen. Grundsätzlich wird ihm ein Such-Konfigurationsfeld (Java-Desktop-Anwendung, nicht Web-App) angezeigt. Er legt den Datumsbereich, die Dokumenttypen, Absender / Empfänger, Schlüsselwörter usw. fest. Er startet die Suche und ruft die resultierende Liste der Dokumente ab (und für jedes Dokument wird angegeben, warum es in den Suchergebnissen enthalten ist, dh welche Schlüsselwörter im Dokument gefunden werden).

Welche Tools sollte ich berücksichtigen und welche nicht? Es geht darum, eine solche Lösung mit nur minimalem "Kleber" -Code zu entwickeln. Ich beherrsche SQLdbs, bin aber mit Apache- und verwandten Technologien nicht vertraut.

Der grundlegende Workflow sieht folgendermaßen aus: ExchangeServer / andere Quelle -> Konvertierung von doc / pdf / ... -> Deduplizierung -> Hadopp + SQL (Metadaten) -> Erstellen / Aktualisieren eines Indexes <- Durchsuchen Sie die Dokumente (und erledigen Sie dies schnell) ) -> Suchergebnisse präsentieren

Vielen Dank!

Antworten auf die Frage(5)

Ihre Antwort auf die Frage