Exportieren Sie große Datenmengen von Cassandra nach CSV

Ich verwende Cassandra 2.0.9 zum Speichern ziemlich großer Datenmengen, sagen wir 100 GB, in einer Spaltenfamilie. Ich möchte diese Daten schnell in CSV exportieren. Ich habe es versucht:

sstable2json - Es werden ziemlich große JSON-Dateien erstellt, die nur schwer zu analysieren sind. - Da das Tool Daten in eine Zeile setzt und ein kompliziertes Schema verwendet (z. B. 300 MB Datendatei = ~ 2 GB JSON), dauert es sehr lange, bis Cassandra den Quellcode wechselt Dateinamen entsprechend dem internen MechanismusKOPIEREN - Verursacht Zeitüberschreitungen bei sehr schnellen EC2-Instanzen für eine große Anzahl von DatensätzenERFASSUNG - Verursacht wie oben Timeoutsliest mit Paginierung - Ich habe timeuuid dafür verwendet, aber es gibt ungefähr 1,5k Datensätze pro Sekunde zurück

Ich verwende eine Amazon Ec2-Instanz mit schnellem Speicher, 15 GB RAM und 4 Kernen

Gibt es eine bessere Option für den Export von Gigabyte Daten von Cassandra nach CSV?

Antworten auf die Frage(2)

Ihre Antwort auf die Frage