Как добавить новый столбец в DataFrame Spark (используя PySpark)?

Question

Nov 12, 2015, 10:14 PM

apache-spark-sql dataframe apache-spark python pyspark

Как добавить новый столбец в DataFrame Spark (используя PySpark)?

У меня есть Spark DataFrame (с использованием PySpark 1.5.1) и я хотел бы добавить новый столбец.

Я попробовал следующее без какого-либо успеха:

type(randomed_hours) # => list

# Create in Python and transform to RDD

new_col = pd.DataFrame(randomed_hours, columns=['new_col'])

spark_new_col = sqlContext.createDataFrame(new_col)

my_df_spark.withColumn("hours", spark_new_col["new_col"])

Также получил ошибку, используя это:

my_df_spark.withColumn("hours",  sc.parallelize(randomed_hours))

Итак, как мне добавить новый столбец (на основе вектора Python) в существующий DataFrame с PySpark?

Как добавить новый столбец в DataFrame Spark (используя PySpark)?

Ответы на вопрос(6)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Как добавить новый столбец в DataFrame Spark (используя PySpark)?

Ответы на вопрос(6)

Ваш ответ на вопрос

Популярные вопросы