Pandas: Sampling a DataFrame [duplicate]
To pytanie ma już odpowiedź tutaj:
Jak podzielić dane na 3 zestawy (trening, walidacja i test)? 5 odpowiedziPróbuję odczytać dość duży plik CSV za pomocą Pandas i podzielić go na dwa losowe fragmenty, z których jeden stanowi 10% danych, a drugi 90%.
Oto moja bieżąca próba:
rows = data.index
row_count = len(rows)
random.shuffle(list(rows))
data.reindex(rows)
training_data = data[row_count // 10:]
testing_data = data[:row_count // 10]
Z jakiegoś powodu,sklearn
zgłasza ten błąd, gdy próbuję użyć jednego z następujących obiektów DataFrame wewnątrz klasyfikatora SVM:
IndexError: each subindex must be either a slice, an integer, Ellipsis, or newaxis
Myślę, że robię to źle. Czy jest na to lepszy sposób?