Разделить содержимое столбца String в PySpark Dataframe

Question

Dec 22, 2016, 01:43 PM

spark-dataframe pyspark apache-spark-mllib apache-spark

Разделить содержимое столбца String в PySpark Dataframe

У меня есть фрейм данных Pyspark, в котором есть столбец, содержащий строки. Я хочу разбить этот столбец на слова

Код:

>>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', header='true', inferSchema='true')
>>> sentenceData.show(truncate=False)
+---+---------------------------+
|key|desc                       |
+---+---------------------------+
|1  |Virat is good batsman      |
|2  |sachin was good            |
|3  |but modi sucks big big time|
|4  |I love the formulas        |
+---+---------------------------+


Expected Output
---------------

>>> sentenceData.show(truncate=False)
+---+-------------------------------------+
|key|desc                                 |
+---+-------------------------------------+
|1  |[Virat,is,good,batsman]              |
|2  |[sachin,was,good]                    |
|3  |....                                 |
|4  |...                                  |
+---+-------------------------------------+

Как мне этого добиться?

Разделить содержимое столбца String в PySpark Dataframe

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Разделить содержимое столбца String в PySpark Dataframe

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы