Pandas: Sampling eines DataFrames [duplizieren]

Question

Aug 30, 2012, 08:12 AM

Pandas: Sampling eines DataFrames [duplizieren]

Diese Frage hat hier bereits eine Antwort:

Wie werden Daten in 3 Sätze aufgeteilt (Zug, Validierung und Test)? 5 Antworten

Ich versuche, mit Pandas eine ziemlich große CSV-Datei zu lesen und sie in zwei zufällige Blöcke aufzuteilen, von denen einer 10% der Daten und der andere 90% der Daten ausmacht.

Hier ist mein aktueller Versuch:

rows = data.index
row_count = len(rows)
random.shuffle(list(rows))

data.reindex(rows)

training_data = data[row_count // 10:]
testing_data = data[:row_count // 10]

Aus irgendeinem Grund,sklearn löst diesen Fehler aus, wenn ich versuche, eines dieser resultierenden DataFrame-Objekte in einem SVM-Klassifizierer zu verwenden:

IndexError: each subindex must be either a slice, an integer, Ellipsis, or newaxis

Ich denke, ich mache es falsch. Gibt es einen besseren Weg, dies zu tun?

Antworten auf die Frage(5)

Top Fragen

0 die antwort

Starten Sie Synergy automatisch auf RHEL / CentOS

0 die antwort

Wo erscheint die Ausgabe von System.Diagnostics.Debug.Write?

0 die antwort

Trimmen Sie führende Leerzeichen einschließlich Tabulatoren

0 die antwort

Phonegap Einstellung Wallpaper von WWW-Assets? Android

0 die antwort

python 'with' Anweisung, soll ich contextlib.closing verwenden?

Du bist sehr aktiv! Es ist großartig!

Pandas: Sampling eines DataFrames [duplizieren]

Antworten auf die Frage(5)

Ihre Antwort auf die Frage

Top Fragen