Dummy-Variablen, wenn nicht alle Kategorien vorhanden sind
Ich habe eine Reihe von Datenrahmen, wobei eine der Spalten eine kategoriale Variable enthält. Ich möchte es in mehrere Dummy-Variablen konvertieren. In diesem Fall würde ich normalerweise @ verwendeget_dummies
.
Was passiert ist, dassget_dummies
ermittelt anhand der in jedem Datenrahmen verfügbaren Daten, wie viele Kategorien vorhanden sind, und erstellt so die entsprechende Anzahl von Dummy-Variablen. Bei dem Problem, an dem ich gerade arbeite, weiß ich jedoch im Voraus, welche Kategorien möglich sind. Wenn Sie jedoch jeden Datenrahmen einzeln betrachten, werden nicht unbedingt alle Kategorien angezeigt.
Meine Frage lautet: Gibt es eine Möglichkeit, an @ zu übergebeget_dummies
(oder eine äquivalente Funktion) die Namen der Kategorien, sodass für die Kategorien, die nicht in einem bestimmten Datenframe enthalten sind, nur eine Spalte mit Nullen erstellt wird?
Etwas, das dies machen würde:
categories = ['a', 'b', 'c']
cat
1 a
2 b
3 a
Werde dies:
cat_a cat_b cat_c
1 1 0 0
2 0 1 0
3 1 0 0