Понимание представления векторного столбца в Spark SQL

Question

Jul 07, 2016, 03:37 AM

apache-spark-mllib apache-spark-sql apache-spark-ml apache-spark

Понимание представления векторного столбца в Spark SQL

Прежде чем я использовал VectorAssembler () для объединения некоторых категориальных функций OneHotEncoded ... Мой фрейм данных выглядел так:

|  Numerical|  HotEncoded1|   HotEncoded2
|  14460.0|    (44,[5],[1.0])|     (3,[0],[1.0])|
|  14460.0|    (44,[9],[1.0])|     (3,[0],[1.0])|
|  15181.0|    (44,[1],[1.0])|     (3,[0],[1.0])|

Первый столбец представляет собой числовой столбец, а два других столбца представляют преобразованный набор данных для категориальных функций OneHotEncoded. После применения VectorAssembler () мой вывод становится:

[(48,[0,1,9],[14460.0,1.0,1.0])]
[(48,[0,3,25],[12827.0,1.0,1.0])]
[(48,[0,1,18],[12828.0,1.0,1.0])]

Я не уверен в том, что означают эти цифры, и не могу понять смысл этого преобразованного набора данных. Некоторое разъяснение того, что означает этот вывод, было бы здорово!

Понимание представления векторного столбца в Spark SQL

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Понимание представления векторного столбца в Spark SQL

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы