Результаты поиска по запросу "pyspark"
stackoverflow.com/q/49734374/8371915
очная информация: я делаю простую двоичную классификацию, используя RandomForestClassifier из pyspark.ml. Перед передачей данных для обучения мне удалось использовать VectorIndexer, чтобы решить, будут ли функции числовыми или категоричными, ...
Теперь масштабируйте ваши значения:
идея, почему спарк будет делать это дляStandardScaler? Согласно определениюStandardScaler: StandardScaler стандартизирует набор функций, чтобы иметь нулевое среднее значение и стандартное отклонение 1. Флаг withStd будет масштабировать данные ...
getItem требует строковых литералов, так как позиции в столбцах типа массива именуются динамически, как _1 и _2
я есть: key value a [1,2,3] b [2,3,4]Я хочу: key value1 value2 value3 a 1 2 3 b 2 3 4Кажется, что в Scala я могу написать:df.select($"value._1", $"value._2", $"value._3"), но это невозможно в python. Так есть ли хороший способ сделать это?
Макет, предложенный Mariusz, должен быть гораздо более эффективным, поскольку это более плоское дерево каталогов - переключение на него должно оказывать большее влияние на производительность хранилищ объектов, чем на реальные файловые системы.
ел бы прочитать несколько файлов паркета в кадре данных из S3. В настоящее время я использую следующий метод для этого:
параметр конфигурации на количество разделов, которые вы хотите.
я был вопрос, который связан с Pyspark'srepartitionBy() функция, которую я первоначально разместил в комментарииэтот ...
Как запустить Spark Shell с помощью pyspark в Windows?
Я новичок в Spark и пытаюсь следовать инструкциям отсюда, как инициализировать оболочку Spark из Python с помощью cmd:http://spark.apache.org/docs/latest/qui...