Поиск по документам, хранящимся в Hadoop - какой инструмент использовать?

Я потерян в: Hadoop, Hbase, Lucene, Carrot2, Cloudera, Tika, ZooKeeper, Solr, Katta, Cascading, POI ...

Когда вы читаете об одном из них, вы часто можете быть уверены, что все остальные инструменты будут упомянуты.

Я не ожидаю, что вы объясните мне все инструменты - конечно, нет. Если бы вы могли помочь мне сузить этот набор для моего конкретного сценария, было бы здорово. Пока я не уверен, что из вышеперечисленного подойдет, и, похоже, (как всегда) существует более одного способа сделать то, что должно быть сделано.

Сценарий: 500 ГБ - ~ 20 ТБ документов, хранящихся в Hadoop. Текстовые документы в нескольких форматах: электронная почта, документ, PDF, ODT. Метаданные о тех документах, которые хранятся в базе данных SQL (отправитель, получатели, дата, отдел и т. Д.) Основным источником документов будет ExchangeServer (электронные письма и вложения), но не только. Теперь к поиску: пользователь должен иметь возможность выполнять сложный полнотекстовый поиск по этим документам. По сути, он будет представлен с некоторой панелью конфигурации поиска (настольное приложение Java, а не веб-приложение) - он установит диапазон дат, типы документов, отправителей / получателей, ключевые слова и т. Д. - запустит поиск и получит список документов. (и для каждого документа информация, почему он включен в результаты поиска, т.е. какие ключевые слова находятся в документе).

Какие инструменты я должен принять во внимание, а какие нет? Задача состоит в том, чтобы разработать такое решение с использованием только минимального требуемого кода «клей». Я хорошо разбираюсь в SQLdbs, но совершенно не согласен с технологиями, связанными с Apache.

Основной рабочий процесс выглядит следующим образом: ExchangeServer / другой источник - & gt; преобразование из документа doc / pdf / ... - & gt; дедупликация - & gt; Hadopp + SQL (метаданные) - & gt; создать / обновить индекс & lt; - искать в документах (и делать это быстро) - & gt; представить результаты поиска

Спасибо!

Ответы на вопрос(5)

Ваш ответ на вопрос