Scikit-Learn подходит для задач с большими данными?

Я работаю над задачей TREC, включающей использование методов машинного обучения, где набор данных состоит из более чем 5 терабайт веб-документов, из которых планируется извлечь векторы из набора слов.scikit-learn @ есть хороший набор функций, которые, кажется, соответствуют моим потребностям, но я не знаю, будет ли он хорошо масштабироваться для обработки больших данных. Например, этоHashingVectorizer способен обрабатывать 5 терабайт документов, и возможно ли его распараллелить? Кроме того, какие есть альтернативы для крупномасштабных задач машинного обучения?

Ответы на вопрос(1)

Ваш ответ на вопрос