Результаты поиска по запросу "apache-spark-ml"

1 ответ

Теперь масштабируйте ваши значения:

идея, почему спарк будет делать это дляStandardScaler? Согласно определениюStandardScaler: StandardScaler стандартизирует набор функций, чтобы иметь нулевое среднее значение и стандартное отклонение 1. Флаг withStd будет масштабировать данные ...

1 ответ

Спасибо за выдающийся ответ!

аспечатать путь решения конкретного образца в Spark DataFrame? Spark Version: '2.3.1'Приведенный ниже код печатает путь принятия решения всей модели, как заставить его распечатать путь принятия решения для конкретного образца? Например, путь ...

1 ответ

Я не верю, что он сказал это для лейблов. Логистическая регрессия иногда выигрывает от ОГЭ, а иногда она на самом деле не нужна. Разработка функций зависит от задачи обучения, характера данных и, что важнее всего, производительности модели. OHE не ведет себя так же с RF, как и в LR. @AliHelmutBaltschun

я проблема с ml.crossvalidator в Scala Spark при использовании одного горячего энкодера. это мой код val tokenizer = new Tokenizer(). setInputCol("subjects"). setOutputCol("subject") //CountVectorizer / TF val countVectorizer = ...

ТОП публикаций

0 ответов

 распространяется, но, насколько я могу судить, это не так. Спасибо за помощь.

ользуюSpark ML GBTClassifier [https://spark.apache.org/docs/2.2.0/api/python/pyspark.ml.html#pyspark.ml.classification.GBTClassifier] вpyspark обучить бинарную модель классификации на фрейме данных с ~ 400 тыс. строк и ~ 9 тыс. столбцов в ...

1 ответ

Например, если вы только что оснастили модель конвейера тремя этапами и хотите установить некоторые параметры на втором этапе, вы можете просто сделать что-то вроде:

исал собственный ML PipelineEstimator а такжеTransformer для моего собственного алгоритма Python, следуя показанной схемеВот [https://stackoverflow.com/a/37279526/1843329]. Однако в этом примере все параметры, необходимые для_transform() были ...

1 ответ

stackoverflow.com/questions/48744338/...

я есть два набора данных, первый из которых является большим эталонным набором данных, а из второго набора данных будет найдено лучшее соответствие из первого набора данных с помощью алгоритма MinHash. val dataset1 = ...

1 ответ

https://github.com/Hydrospheredata/hydro-serving

от вопрос уже есть ответ здесь: Как обслуживать модель Spark MLlib? [/questions/40533582/how-to-serve-a-spark-mllib-model] 3 ответаВ настоящее время мы тестируем механизм прогнозирования, основанный на реализации LDA Spark ...

1 ответ

, например:

я есть Dataframe, который я хочу использовать для прогнозирования с существующей моделью. Я получаю сообщение об ошибке при использовании метода преобразования моей модели. Вот как я обрабатываю данные обучения. forecast.printSchema()Схема ...

0 ответов

@Angelito Основная сериализация данных с паркетом уменьшит время перемешивания для разделов, потому что «сокращает» структуру данных

ользую Spark ML для запуска некоторых экспериментов ML и на небольшом наборе данных размером 20 МБ (Набор данных покера [http://archive.ics.uci.edu/ml/machine-learning-databases/poker/poker-hand-testing.data] ) и Случайный лес с сеткой ...

1 ответ

Apack Spark добавляет новую установленную ступень к выходной PipelineModel без повторной подгонки

я два отдельных