Darstellung der Vektorspalte in Spark SQL verstehen
Bevor ich mit VectorAssembler () einige kategoriale OneHotEncoded-Features konsolidiert habe ... sah mein Datenrahmen folgendermaßen aus:
| Numerical| HotEncoded1| HotEncoded2
| 14460.0| (44,[5],[1.0])| (3,[0],[1.0])|
| 14460.0| (44,[9],[1.0])| (3,[0],[1.0])|
| 15181.0| (44,[1],[1.0])| (3,[0],[1.0])|
Die erste Spalte ist eine numerische Spalte und die anderen beiden Spalten stellen den transformierten Datensatz für kategoriale OneHotEncoded-Features dar. Nach der Anwendung von VectorAssembler () wird meine Ausgabe zu:
[(48,[0,1,9],[14460.0,1.0,1.0])]
[(48,[0,3,25],[12827.0,1.0,1.0])]
[(48,[0,1,18],[12828.0,1.0,1.0])]
Ich bin mir nicht sicher, was diese Zahlen bedeuten, und kann diesen transformierten Datensatz nicht verstehen. Eine Klarstellung darüber, was diese Ausgabe bedeutet, wäre großartig!