¿Qué cambia cuando su entrada tiene un tamaño de giga / terabyte?

Acabo de dar mi primer paso hoy en computación científica real hoy cuando me mostraron un conjunto de datos donde el archivo más pequeño es 48000 campos por 1600 filas (haplotipos para varias personas, para el cromosoma 22). Y esto se considera pequeño.

Escribo Python, así que pasé las últimas horas leyendo sobre HDF5, Numpy y PyTable, pero todavía siento que realmente no estoy asimilando lo que un conjunto de datos del tamaño de un terabyte realmente significa para mí como programador.

Por ejemplo, alguien señaló que con conjuntos de datos más grandes, ¡es imposible leer todo en la memoria, no porque la máquina tenga RAM insuficiente, sino porque la arquitectura tiene espacio de direcciones insuficiente! Me voló la cabeza.

¿Qué otras suposiciones he estado confiando en el aula que simplemente no funcionan con una entrada tan grande? ¿Qué tipo de cosas necesito para comenzar a hacer o pensar de manera diferente? (Esto no tiene que ser específico de Python).

Respuestas a la pregunta(4)

Su respuesta a la pregunta