Compreendendo a representação da coluna vetorial no Spark SQL
Antes de usar o VectorAssembler () para consolidar alguns recursos categóricos do OneHotEncoded ... Meu quadro de dados era assim:
| Numerical| HotEncoded1| HotEncoded2
| 14460.0| (44,[5],[1.0])| (3,[0],[1.0])|
| 14460.0| (44,[9],[1.0])| (3,[0],[1.0])|
| 15181.0| (44,[1],[1.0])| (3,[0],[1.0])|
A primeira coluna é uma coluna numérica e as outras duas colunas representam o conjunto de dados transformado para os recursos categóricos do OneHotEncoded. Depois de aplicar VectorAssembler (), minha saída se torna:
[(48,[0,1,9],[14460.0,1.0,1.0])]
[(48,[0,3,25],[12827.0,1.0,1.0])]
[(48,[0,1,18],[12828.0,1.0,1.0])]
Não tenho certeza do significado desses números e não consigo entender esse conjunto de dados transformados. Alguns esclarecimentos sobre o significado dessa saída seriam ótimos!