Wollen Sie den Unterschied zwischen pd.factorize, pd.get_dummies, sklearn.preprocessing.LableEncoder und OneHotEncoder [closed] kennen?
Alle vier Funktionen scheinen mir sehr ähnlich zu sein. In einigen Situationen liefern einige von ihnen möglicherweise das gleiche Ergebnis, andere nicht. Jede Hilfe wird dankbar geschätzt!
etzt weiß ich, und ich gehe davon aus, dass intern,factorize
undLabelEncoder
genauso arbeiten und keine großen ergebnisunterschiede haben. Ich bin mir nicht sicher, ob sie bei großen Datenmengen ähnlich viel Zeit in Anspruch nehmen werden.
get_dummies
undOneHotEncoder
liefert das gleiche Ergebnis, aberOneHotEncoder
kann nur Zahlen verarbeiten, aberget_dummies
nimmt alle Arten von Eingaben entgegen.get_dummies
generiert automatisch neue Spaltennamen für jede Spalteneingabe, aberOneHotEncoder
wird nicht (es wird vielmehr neue Spaltennamen 1,2,3 ... vergeben). Soget_dummies
ist in jeder Hinsicht besser.
Bitte korrigieren Sie mich, wenn ich falsch liege! Vielen Dank