Divida aleatoriamente los datos por criterio en un conjunto de datos de entrenamiento y prueba usando R
Gidday
Estoy buscando una manera de dividir aleatoriamente un marco de datos (por ejemplo, división 90/10) para probar y entrenar un modelo que mantenga ciertos criterios de agrupación.
Imagina que tengo un marco de datos como este:
> test[1:20,]
companycode year expenses
1 C1 1 8.47720
2 C1 2 8.45250
3 C1 3 8.46280
4 C2 1 14828.90603
5 C3 1 665.21565
6 C3 2 290.66596
7 C3 3 865.56265
8 C3 4 6785.03586
9 C3 5 312.02617
10 C3 6 760.48740
11 C3 7 1155.76758
12 C4 1 4565.78313
13 C4 2 3340.36540
14 C4 3 2656.73030
15 C4 4 1079.46098
16 C5 1 60.57039
17 C6 1 6282.48118
18 C6 2 7419.32720
19 C7 1 644.90571
20 C8 1 58332.34945
Lo que intento hacer es dividir este marco de datos en un conjunto de entrenamiento y prueba usando un criterio de división definido. Utilizando los datos proporcionados, quiero dividir los datos de manera que las empresas no se mezclen en ambos marcos de datos. El conjunto de datos 1 contiene diferentes compañías que el conjunto de datos 2.
Imagine una división 90/10, una división ideal se vería así:
> data_90split
companycode year expenses
4 C2 1 14828.90603
12 C4 1 4565.78313
13 C4 2 3340.36540
14 C4 3 2656.73030
15 C4 4 1079.46098
16 C5 1 60.57039
5 C3 1 665.21565
6 C3 2 290.66596
7 C3 3 865.56265
8 C3 4 6785.03586
9 C3 5 312.02617
10 C3 6 760.48740
11 C3 7 1155.76758
17 C6 1 6282.48118
18 C6 2 7419.32720
1 C1 1 8.47720
2 C1 2 8.45250
3 C1 3 8.46280
> data_10split
companycode year expenses
20 C8 1 58332.34945
19 C7 1 644.90571
Espero haber señalado claramente lo que estoy buscando. Gracias por sus comentarios.