Результаты поиска по запросу "pyspark"

2 ответа

https://spark.apache.org/docs/latest/configuration.html#available-properties

дал скрипт pyspark, который прекрасно работает, когда я выполняю его сspark-submit: spark-submit --packages com.datastax.spark:spark-cassandra-connector_2.11:2.0.6 --conf spark.cassandra.connection.host=12.34.56.68 test_cassandra.pyПоскольку ...

1 ответ

Пожалуйста, не обновляйте вопрос, как только он будет принят как ответ, потому что может показаться, что ответ не является адекватным для вопроса. Вы всегда можете задать другой вопрос. А пока я обновил ответ. но, пожалуйста, не делай этого в будущем @ user9367133

я есть фрейм данных вpyspark как ниже. df.show() +---+-------+----+ | id| type|s_id| +---+-------+----+ | 1| ios| 11| | 1| ios| 12| | 1| ios| 13| | 1| ios| 14| | 1|android| 15| | 1|android| 16| | 1|android| 17| | 2| ios| 21| | 2|android| 18| ...

3 ответа

совершить:

ользую PyCharm 2018.1, используя Python 3.4 с Spark 2.3, установленным через pip в virtualenv. На локальном хосте нет установки hadoop, поэтому нет установки Spark (таким образом, нет SPARK_HOME, HADOOP_HOME и т. Д.) Когда я пытаюсь это: from ...

ТОП публикаций

1 ответ

Выше для вашей справки

ал получать следующую ошибку каждый раз, когда я пытаюсь собрать мой RDD. Это случилось после того, как я установил Java 10.1. Конечно, я вынул его и переустановил, та же ошибка. Затем я установил Java 9.04 ту же ошибку. Затем я вырвал Python ...

1 ответ

stackoverflow.com/q/49734374/8371915

очная информация: я делаю простую двоичную классификацию, используя RandomForestClassifier из pyspark.ml. Перед передачей данных для обучения мне удалось использовать VectorIndexer, чтобы решить, будут ли функции числовыми или категоричными, ...

1 ответ

') * ") так что я бы просто перечислил столбцы из dfA, которые существуют в dfB +" null as colname "для тех, которые не существуют в dfB.

я есть две искровые датафреймы: Фрейм данных A: |col_1 | col_2 | ... | col_n | |val_1 | val_2 | ... | val_n |и кадр данных B: |col_1 | col_2 | ... | col_m | |val_1 | val_2 | ... | val_m |Фрейм данных B может содержать повторяющиеся, ...

1 ответ

Спасибо, это был Spark 2.2-балл-что-то. Похоже, это уже было «исправлено» в смысле выдачи сообщения об ошибке в ветке 2.3.

я есть работа Spark, написанная на Python, которая ведет себя странно при проверке ошибок в своих данных. Упрощенная версия ниже: from pyspark.sql import SparkSession from pyspark.sql.types import StringType, StructType, StructField, DoubleType ...

2 ответа

Если я хочу напрямую запустить файл .hql, могу ли я сделать это с помощью следующей команды. sqlContext.sql (открытый ( "file.hql"). чтения ())

от вопрос уже есть ответ здесь: Как получить значение из объекта Row в Spark Dataframe? [/questions/37999657/how-to-get-a-value-from-the-row-object-in-spark-dataframe] 3 ответаВ настоящее время я изучаю, как вызвать большие файлы hql (содержит ...

1 ответ

Спасибо! Это оно!

я есть столбец «true_recoms» в фрейме данных: -RECORD 17----------------------------------------------------------------- item | 20380109 true_recoms | {"5556867":1,"5801144":5,"7397596":21}Мне нужно «взорвать» этот столбец, чтобы получить ...

1 ответ

 параметр конфигурации на количество разделов, которые вы хотите.

я был вопрос, который связан с Pyspark'srepartitionBy() функция, которую я первоначально разместил в комментарииэтот ...