Результаты поиска по запросу "apache-spark-mllib"
Масштабирование каждого столбца кадра данных
Я пытаюсь масштабировать каждый столбец данных.Сначала я конвертирую каждый столбец в вектор, а затем использую мл MinMax Scaler.Есть ли лучший / более элега...
@Angelito Основная сериализация данных с паркетом уменьшит время перемешивания для разделов, потому что «сокращает» структуру данных
ользую Spark ML для запуска некоторых экспериментов ML и на небольшом наборе данных размером 20 МБ (Набор данных покера [http://archive.ics.uci.edu/ml/machine-learning-databases/poker/poker-hand-testing.data] ) и Случайный лес с сеткой ...
«Соответствующие пропорции метки 1» совпадают с частотой метки? Поэтому я запутался в целесообразности использования StringInder для DecisionTree в Spark.
аюсь построить дерево решений и классификатор случайных лесов на основе маркетинговых данных банка UCI -> https://archive.ics.uci.edu/ml/datasets/bank+marketing [https://archive.ics.uci.edu/ml/datasets/bank+marketing], В наборе данных есть много ...
stackoverflow.com/a/48095339/8371915
я есть DataFrame с двумя столбцами: df = Col1 Col2 aaa bbb ccc aaaЯ хочу закодировать строковые значения в числовые значения. Мне удалось сделать это таким образом: import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer} val indexer1 ...
stackoverflow.com/questions/48744338/...
я есть два набора данных, первый из которых является большим эталонным набором данных, а из второго набора данных будет найдено лучшее соответствие из первого набора данных с помощью алгоритма MinHash. val dataset1 = ...