Aún luchando con el manejo de grandes conjuntos de datos

Question

Jul 28, 2017, 12:38 AM

r memory-management data.table ff r-bigmemory

Aún luchando con el manejo de grandes conjuntos de datos

He estado leyendo en este sitio web y no he podido encontrar la respuesta exacta. Si ya existe, pido disculpas por la nueva publicación.

Estoy trabajando con conjuntos de datos que son extremadamente grandes (600 millones de filas, 64 columnas en una computadora con 32 GB de RAM). Realmente solo necesito subconjuntos mucho más pequeños de estos datos, pero tengo dificultades para realizar cualquier función además de importar un conjunto de datos con fread y seleccionar las 5 columnas que necesito. Después de eso, trato de sobrescribir mi conjunto de datos con las condiciones específicas que necesito, pero llego a mi límite de RAM y aparece el mensaje "Error: no puedo asignar un tamaño de vector de 4.5 GB. Miré los paquetes ff y bigmemory como alternativas, pero parece como si no pudieras subconjuntos antes de importar en esos paquetes ¿Hay alguna solución a este problema además de actualizar la RAM en la computadora?

Tareas que estoy tratando de realizar:

>SampleTable<-fread("my.csv", header = T, sep = ",", select=c("column1", "column2", "column7", "column12", "column15"))

>SampleTable2<-SampleTable[SampleTable[,column1=="6" & column7=="1"]]

En este punto, llegué a mi límite de memoria. ¿Sería mejor intentar usar otro paquete pero importar las 64 columnas de 600 millones de filas? Tampoco quiero pasar horas y horas solo para realizar una importación.