Compreendendo a representação da coluna vetorial no Spark SQL

Question

Jul 07, 2016, 03:37 AM

apache-spark-ml apache-spark apache-spark-sql apache-spark-mllib

Compreendendo a representação da coluna vetorial no Spark SQL

Antes de usar o VectorAssembler () para consolidar alguns recursos categóricos do OneHotEncoded ... Meu quadro de dados era assim:

|  Numerical|  HotEncoded1|   HotEncoded2
|  14460.0|    (44,[5],[1.0])|     (3,[0],[1.0])|
|  14460.0|    (44,[9],[1.0])|     (3,[0],[1.0])|
|  15181.0|    (44,[1],[1.0])|     (3,[0],[1.0])|

A primeira coluna é uma coluna numérica e as outras duas colunas representam o conjunto de dados transformado para os recursos categóricos do OneHotEncoded. Depois de aplicar VectorAssembler (), minha saída se torna:

[(48,[0,1,9],[14460.0,1.0,1.0])]
[(48,[0,3,25],[12827.0,1.0,1.0])]
[(48,[0,1,18],[12828.0,1.0,1.0])]

Não tenho certeza do significado desses números e não consigo entender esse conjunto de dados transformados. Alguns esclarecimentos sobre o significado dessa saída seriam ótimos!