Это невероятно быстро и может успешно управлять большими объемами данных, однако это не так легко расширяемо, как Lucene.

я есть большой набор файлов (hdf), который мне нужен для поиска. Для Java я бы использовал Lucene для этого, так как это механизм индексации файлов и документов. Я не знаю, каким будет эквивалент Python.

Кто-нибудь может порекомендовать, какую библиотеку я должен использовать для индексации большой коллекции файлов для быстрого поиска? Или это предпочтительный способ свернуть свой собственный?

Я смотрел наpylucene а такжеЛупий, но оба проекта кажутся довольно неактивными и неподдерживаемыми, поэтому я не уверен, стоит ли на них полагаться.

Заключительные замечания: Woosh и пилицен кажутся многообещающими, но woosh по-прежнему является альфа-версией, поэтому я не уверен, что хочу на нее полагаться, и у меня возникают проблемы при компиляции пилицена, и реальных выпусков нет. После того, как я посмотрел немного больше на данные, это в основном числа и текстовые строки по умолчанию, так что теперь механизм индексирования мне не поможет. Надеемся, что эти библиотеки стабилизируются, и позже посетители найдут для них применение.

Ответы на вопрос(1)

Ваш ответ на вопрос