¿Experiencia con el uso de h5py para hacer trabajo analítico en big data en Python?

Hago mucho trabajo estadístico y uso Python como mi idioma principal. Sin embargo, algunos de los conjuntos de datos con los que trabajo pueden ocupar 20 GB de memoria, lo que hace que sea casi imposible operarlos utilizando funciones en memoria en numpy, scipy y PyIMSL. El lenguaje de análisis estadístico SAS tiene una gran ventaja aquí, ya que puede operar con datos del disco duro en lugar de un procesamiento estrictamente en memoria. Pero, quiero evitar tener que escribir mucho código en SAS (por una variedad de razones) y, por lo tanto, estoy tratando de determinar qué opciones tengo con Python (además de comprar más hardware y memoria).

Debo aclarar que enfoques como map-reduce no ayudarán en gran parte de mi trabajo porque necesito operar encompletar conjuntos de datos (por ejemplo, calcular cuantiles o ajustar un modelo de regresión logística).

Recientemente comencé a jugar conh5py y creo que es la mejor opción que he encontrado para permitir que Python actúe como SAS y opere con datos del disco (a través de archivos hdf5), sin dejar de aprovechar numpy / scipy / matplotlib, etc. Me gustaría saber si alguien tiene experiencia usando Python y h5py en una configuración similar y lo que han encontrado. ¿Alguien ha podido usar Python en la configuración de "big data" hasta ahora dominada por SAS?

EDITAR: Comprar más hardware / memoria ciertamente puede ayudar, pero desde una perspectiva de TI es difícil para mí vender Python a una organización que necesita analizar grandes conjuntos de datos cuando Python (o R, o MATLAB, etc.) necesitan mantener datos en la memoria . SAS continúa teniendo un fuerte punto de venta porque, aunque el análisis basado en disco puede ser más lento, puede manejar con confianza grandes conjuntos de datos. Por lo tanto, espero que Stackoverflow-ers pueda ayudarme a descubrir cómo reducir el riesgo percibido en torno al uso de Python como un lenguaje principal de análisis de big data.

Respuestas a la pregunta(2)

Su respuesta a la pregunta