Pandas: Sampling eines DataFrames [duplizieren]
Diese Frage hat hier bereits eine Antwort:
Wie werden Daten in 3 Sätze aufgeteilt (Zug, Validierung und Test)? 5 AntwortenIch versuche, mit Pandas eine ziemlich große CSV-Datei zu lesen und sie in zwei zufällige Blöcke aufzuteilen, von denen einer 10% der Daten und der andere 90% der Daten ausmacht.
Hier ist mein aktueller Versuch:
rows = data.index
row_count = len(rows)
random.shuffle(list(rows))
data.reindex(rows)
training_data = data[row_count // 10:]
testing_data = data[:row_count // 10]
Aus irgendeinem Grund,sklearn
löst diesen Fehler aus, wenn ich versuche, eines dieser resultierenden DataFrame-Objekte in einem SVM-Klassifizierer zu verwenden:
IndexError: each subindex must be either a slice, an integer, Ellipsis, or newaxis
Ich denke, ich mache es falsch. Gibt es einen besseren Weg, dies zu tun?