что меняется, когда ваш ввод имеет размер гига / терабайт?
Я только что сделал свой первый шаг сегодня в реальные научные вычисления, когда мне показали набор данных, где наименьший файл - 48000 полей на 1600 строк (гаплотипы для нескольких человек, для хромосомы 22). И это считается крошечным.
Я пишу на Python, поэтому я провел последние несколько часов, читая о HDF5, Numpy и PyTable, но я все еще чувствую, что не особо понимаю, что на самом деле означает набор данных размером в терабайт для меня, как программиста.
Например, кто-то указал, что при больших наборах данных становится невозможным считывать все это в память не потому, что на машине недостаточно оперативной памяти, а потому, что в архитектуре недостаточно адресного пространства! Это взорвало мой разум.
На какие еще предположения я опирался в классе, которые просто не работают с таким большим вкладом? Какие вещи мне нужно начать делать или думать по-другому? (Это не обязательно должно быть специфично для Python.)