o que muda quando sua entrada é do tamanho de giga / terabyte?

Acabei de dar meu primeiro passo hoje para a computação científica real hoje, quando me foi mostrado um conjunto de dados em que o menor arquivo é de 48000 campos por 1600 linhas (haplótipos para várias pessoas, para o cromossomo 22). E isso é considerado minúsculo.

Como escrevo Python, passei as últimas horas lendo sobre HDF5, Numpy e PyTable, mas ainda sinto que não estou realmente entendendo o que um conjunto de dados em tamanho de terabyte realmente significa para mim como programador.

Por exemplo, alguém apontou que, com conjuntos de dados maiores, torna-se impossível ler tudo na memória, não porque a máquina tenha RAM insuficiente, mas porque a arquitetura possui espaço de endereço insuficiente! Isso me impressionou.

Que outras suposições eu tenho contado na sala de aula que simplesmente não funcionam com informações tão grandes? Que tipos de coisas eu preciso para começar a fazer ou pensar de maneira diferente? (Isso não precisa ser específico do Python.)

questionAnswers(4)

yourAnswerToTheQuestion