Wyszukiwanie dokumentów przechowywanych w Hadoop - które narzędzie użyć?

Question

Jul 18, 2012, 08:53 PM

Wyszukiwanie dokumentów przechowywanych w Hadoop - które narzędzie użyć?

Zgubiłem się w: Hadoop, Hbase, Lucene, Carrot2, Cloudera, Tika, ZooKeeper, Solr, Katta, Kaskadowanie, POI ...

Kiedy czytasz o tym, możesz być często pewien, że każde z pozostałych narzędzi zostanie wspomniane.

Nie oczekuję, że wyjaśnisz mi każde narzędzie - na pewno nie. Gdybyś mógł mi pomóc zawęzić ten zestaw do mojego konkretnego scenariusza, byłoby świetnie. Do tej pory nie jestem pewien, który z powyższych będzie pasował i wygląda (jak zawsze) na więcej niż jeden sposób na zrobienie tego, co należy zrobić.

Scenariusz to: 500 GB - ~ 20 TB dokumentów przechowywanych w Hadoop. Dokumenty tekstowe w wielu formatach: email, doc, pdf, odt. Metadane dotyczące tych dokumentów przechowywanych w bazie danych SQL (nadawca, odbiorcy, data, dział itp.) Głównym źródłem dokumentów będzie ExchangeServer (e-maile i załączniki), ale nie tylko. Teraz do wyszukiwania: użytkownik musi mieć możliwość wykonywania złożonych pełnotekstowych wyszukiwań tych dokumentów. Zasadniczo będzie on prezentowany z pewnym panelem wyszukiwania (aplikacja java desktop, a nie webapp) - ustawi zakres dat, typy dokumentów, nadawców / odbiorców, słowa kluczowe itp. - uruchom wyszukiwanie i uzyskaj wynikową listę dokumentów (i dla każdej informacji o dokumencie dlaczego jest ona zawarta w wynikach wyszukiwania, tj. które słowa kluczowe znajdują się w dokumencie).

Jakie narzędzia powinienem wziąć pod uwagę, a które nie? Chodzi o opracowanie takiego rozwiązania z minimalnym wymaganym kodem „kleju”. Jestem biegły w SQLdbs, ale nie czuję się dobrze z technologiami Apache i pokrewnymi.

Podstawowy przepływ pracy wygląda następująco: ExchangeServer / inne źródło -> konwersja z doc / pdf / ... -> deduplikacja -> Hadopp + SQL (metadane) -> buduj / aktualizuj indeks <- przeszukuj dokumenty (i to szybko ) -> prezentuj wyniki wyszukiwania

Dziękuję Ci!