Comprender la representación de la columna vectorial en Spark SQL

Question

Jul 07, 2016, 03:37 AM

apache-spark-ml apache-spark-mllib apache-spark-sql apache-spark

Comprender la representación de la columna vectorial en Spark SQL

Antes de usar VectorAssembler () para consolidar algunas características categóricas de OneHotEncoded ... Mi marco de datos se veía así:

|  Numerical|  HotEncoded1|   HotEncoded2
|  14460.0|    (44,[5],[1.0])|     (3,[0],[1.0])|
|  14460.0|    (44,[9],[1.0])|     (3,[0],[1.0])|
|  15181.0|    (44,[1],[1.0])|     (3,[0],[1.0])|

La primera columna es una columna numérica y las otras dos columnas representan el conjunto de datos transformados para las características categóricas de OneHotEncoded. Después de aplicar VectorAssembler (), mi salida se convierte en:

[(48,[0,1,9],[14460.0,1.0,1.0])]
[(48,[0,3,25],[12827.0,1.0,1.0])]
[(48,[0,1,18],[12828.0,1.0,1.0])]

No estoy seguro de lo que significan estos números y no puedo entender este conjunto de datos transformado. ¡Alguna aclaración sobre lo que significa esta salida sería genial!