Experiência com o uso do h5py para realizar trabalho analítico em big data em Python?

Question

Feb 02, 2011, 08:11 AM

Experiência com o uso do h5py para realizar trabalho analítico em big data em Python?

Eu faço muito trabalho estatístico e uso o Python como minha linguagem principal. Alguns dos conjuntos de dados com os quais trabalho podem levar 20 GB de memória, o que impossibilita a operação usando funções na memória numpy, scipy e PyIMSL. A linguagem de análise estatística SAS tem uma grande vantagem aqui, pois pode operar com dados do disco rígido, em oposição ao processamento estritamente na memória. Porém, quero evitar a necessidade de escrever muito código no SAS (por várias razões) e, portanto, estou tentando determinar quais opções eu tenho com o Python (além de comprar mais hardware e memória).

Devo esclarecer que abordagens como reduzir o mapa não ajudarão em grande parte do meu trabalho, porque preciso operar comcompleto conjuntos de dados (por exemplo, computando quantis ou ajustando um modelo de regressão logística).

Recentemente comecei a brincar comh5py e acho que é a melhor opção que encontrei para permitir que o Python atue como SAS e opere nos dados do disco (via arquivos hdf5), enquanto ainda é capaz de alavancar numpy / scipy / matplotlib, etc. Gostaria de saber se alguém tem experiência usando Python e h5py em uma configuração semelhante e o que eles encontraram. Alguém já conseguiu usar o Python em configurações de "big data" até então dominadas pelo SAS?

EDIT: Comprar mais hardware / memória certamente pode ajudar, mas, do ponto de vista de TI, é difícil vender Python para uma organização que precisa analisar grandes conjuntos de dados quando o Python (ou R, ou MATLAB, etc.) precisa reter dados na memória . O SAS continua tendo um forte ponto de venda aqui porque, embora a análise baseada em disco possa ser mais lenta, você pode lidar com grandes conjuntos de dados com confiança. Portanto, espero que os Stackoverflow possam me ajudar a descobrir como reduzir o risco percebido ao usar o Python como a principal linguagem de análise de big data.