Самостоятельная заметка для полноты: для добавления всех предыдущих столбцов,
я есть Spark DataFrame, где у меня есть столбец со значениями вектора. Все значения вектора являются n-мерными, то есть одинаковой длины. У меня также есть список имен столбцовArray("f1", "f2", "f3", ..., "fn")
каждый соответствует одному элементу в векторе.
some_columns... | Features
... | [0,1,0,..., 0]
to
some_columns... | f1 | f2 | f3 | ... | fn
... | 0 | 1 | 0 | ... | 0
Каков наилучший способ достичь этого? Я подумал об одном способе, который заключается в создании нового DataFrame сcreateDataFrame(Row(Features), featureNameList)
и затем присоединитесь к старому, но это требует контекста искры, чтобы использовать createDataFrame. Я только хочу преобразовать существующий фрейм данных. Я также знаю.withColumn("fi", value)
но что мне делать, еслиn
большой?
Я новичок в Scala и Spark и не смог найти хороших примеров для этого. Я думаю, что это может быть общей задачей. Мой конкретный случай заключается в том, что я использовалCountVectorizer
и хотел восстановить каждый столбец индивидуально для лучшей читаемости, а не только с векторным результатом.