Pandas: Muestreo de un marco de datos [duplicado]
Esta pregunta ya tiene una respuesta aquí:
¿Cómo dividir los datos en 3 conjuntos (tren, validación y prueba)? 5 respuestasEstoy tratando de leer un archivo CSV bastante grande con Pandas y dividirlo en dos fragmentos aleatorios, uno de los cuales es el 10% de los datos y el otro el 90%.
Aquí está mi intento actual:
rows = data.index
row_count = len(rows)
random.shuffle(list(rows))
data.reindex(rows)
training_data = data[row_count // 10:]
testing_data = data[:row_count // 10]
Por alguna razón,sklearn
arroja este error cuando intento usar uno de estos objetos DataFrame resultantes dentro de un clasificador SVM:
IndexError: each subindex must be either a slice, an integer, Ellipsis, or newaxis
Creo que lo estoy haciendo mal. ¿Hay una mejor manera de hacer esto