Результаты поиска по запросу "pyspark"

1 ответ

отправить скрипт .py на Spark без установки Hadoop

1 ответ

stackoverflow.com/q/49734374/8371915

очная информация: я делаю простую двоичную классификацию, используя RandomForestClassifier из pyspark.ml. Перед передачей данных для обучения мне удалось использовать VectorIndexer, чтобы решить, будут ли функции числовыми или категоричными, ...

1 ответ

Теперь масштабируйте ваши значения:

идея, почему спарк будет делать это дляStandardScaler? Согласно определениюStandardScaler: StandardScaler стандартизирует набор функций, чтобы иметь нулевое среднее значение и стандартное отклонение 1. Флаг withStd будет масштабировать данные ...

ТОП публикаций

2 ответа

В качестве альтернативы, как найти количество дней, прошедших между двумя последующими действиями пользователя, с помощью pySpark:

я есть такие данные:

1 ответ

getItem требует строковых литералов, так как позиции в столбцах типа массива именуются динамически, как _1 и _2

я есть: key value a [1,2,3] b [2,3,4]Я хочу: key value1 value2 value3 a 1 2 3 b 2 3 4Кажется, что в Scala я могу написать:df.select($"value._1", $"value._2", $"value._3"), но это невозможно в python. Так есть ли хороший способ сделать это?

1 ответ

Spark Structured Streaming с использованием сокетов, установите SCHEMA, отобразите DATAFRAME в консоли

2 ответа

Макет, предложенный Mariusz, должен быть гораздо более эффективным, поскольку это более плоское дерево каталогов - переключение на него должно оказывать большее влияние на производительность хранилищ объектов, чем на реальные файловые системы.

ел бы прочитать несколько файлов паркета в кадре данных из S3. В настоящее время я использую следующий метод для этого:

1 ответ

, У меня есть несколько профилей ipython, которые я хочу разделить для разных целей, и создание ядра для каждого из них было для меня самым простым способом добиться этого.

1 ответ

 параметр конфигурации на количество разделов, которые вы хотите.

я был вопрос, который связан с Pyspark'srepartitionBy() функция, которую я первоначально разместил в комментарииэтот ...

5 ответов

Как запустить Spark Shell с помощью pyspark в Windows?

Я новичок в Spark и пытаюсь следовать инструкциям отсюда, как инициализировать оболочку Spark из Python с помощью cmd:http://spark.apache.org/docs/latest/qui...