Понимание представления векторного столбца в Spark SQL
Прежде чем я использовал VectorAssembler () для объединения некоторых категориальных функций OneHotEncoded ... Мой фрейм данных выглядел так:
| Numerical| HotEncoded1| HotEncoded2
| 14460.0| (44,[5],[1.0])| (3,[0],[1.0])|
| 14460.0| (44,[9],[1.0])| (3,[0],[1.0])|
| 15181.0| (44,[1],[1.0])| (3,[0],[1.0])|
Первый столбец представляет собой числовой столбец, а два других столбца представляют преобразованный набор данных для категориальных функций OneHotEncoded. После применения VectorAssembler () мой вывод становится:
[(48,[0,1,9],[14460.0,1.0,1.0])]
[(48,[0,3,25],[12827.0,1.0,1.0])]
[(48,[0,1,18],[12828.0,1.0,1.0])]
Я не уверен в том, что означают эти цифры, и не могу понять смысл этого преобразованного набора данных. Некоторое разъяснение того, что означает этот вывод, было бы здорово!