Was ändert sich, wenn Ihre Eingabe Giga / Terabyte groß ist?

Ich habe heute gerade meinen ersten kleinen Schritt in das echte wissenschaftliche Rechnen getan, als mir ein Datensatz gezeigt wurde, in dem die kleinste Datei 48000 Felder mal 1600 Zeilen umfasst (Haplotypen für mehrere Personen, für Chromosom 22). Und das gilt als winzig.

Ich schreibe Python, also habe ich die letzten Stunden damit verbracht, über HDF5, Numpy und PyTable zu lesen, aber ich habe immer noch das Gefühl, nicht wirklich zu wissen, was ein Datensatz in Terabyte-Größe für mich als Programmierer bedeutet.

Zum Beispiel hat jemand darauf hingewiesen, dass es bei größeren Datenmengen unmöglich wird, das Ganze in den Arbeitsspeicher zu lesen, nicht weil der Arbeitsspeicher des Computers nicht ausreicht, sondern weil die Architektur nicht genügend Adressraum hat! Es hat mich umgehauen.

Welche anderen Annahmen habe ich im Klassenzimmer getroffen, die mit so großen Eingaben einfach nicht funktionieren? Was muss ich tun oder anders überlegen? (Dies muss nicht Python-spezifisch sein.)

Antworten auf die Frage(8)

Ihre Antwort auf die Frage