Darstellung der Vektorspalte in Spark SQL verstehen

Question

Jul 07, 2016, 03:37 AM

apache-spark-ml apache-spark-sql apache-spark apache-spark-mllib

Darstellung der Vektorspalte in Spark SQL verstehen

Bevor ich mit VectorAssembler () einige kategoriale OneHotEncoded-Features konsolidiert habe ... sah mein Datenrahmen folgendermaßen aus:

|  Numerical|  HotEncoded1|   HotEncoded2
|  14460.0|    (44,[5],[1.0])|     (3,[0],[1.0])|
|  14460.0|    (44,[9],[1.0])|     (3,[0],[1.0])|
|  15181.0|    (44,[1],[1.0])|     (3,[0],[1.0])|

Die erste Spalte ist eine numerische Spalte und die anderen beiden Spalten stellen den transformierten Datensatz für kategoriale OneHotEncoded-Features dar. Nach der Anwendung von VectorAssembler () wird meine Ausgabe zu:

[(48,[0,1,9],[14460.0,1.0,1.0])]
[(48,[0,3,25],[12827.0,1.0,1.0])]
[(48,[0,1,18],[12828.0,1.0,1.0])]

Ich bin mir nicht sicher, was diese Zahlen bedeuten, und kann diesen transformierten Datensatz nicht verstehen. Eine Klarstellung darüber, was diese Ausgabe bedeutet, wäre großartig!