Jak indeksować pliki tekstowe za pomocą apache solr

Question

Mar 19, 2013, 10:57 AM

Jak indeksować pliki tekstowe za pomocą apache solr

Chciałem indeksować pliki tekstowe. Po wielu poszukiwaniach dowiedziałem się o Apache tika. Teraz w niektórych witrynach, na których studiowałem tiki Apache, dowiedziałem się, że Apache tika konwertuje tekst na format XML, a następnie wysyła go do solr. Ale podczas konwertowania tworzy tylko jeden przykład tagu ....... Teraz plik tekstowy, który chcę zaindeksować, jest plikiem dostępu lokalnego hosta tomcat. Ten plik jest w GB. Nie mogę go przechowywać ani pojedynczego indeksu. Chcę, aby każda linia miała identyfikator linii ....... Aby móc łatwo pobrać pasującą linię.

Czy można to zrobić w Apache Tika?