Exportieren Sie große Datenmengen von Cassandra nach CSV
Ich verwende Cassandra 2.0.9 zum Speichern ziemlich großer Datenmengen, sagen wir 100 GB, in einer Spaltenfamilie. Ich möchte diese Daten schnell in CSV exportieren. Ich habe es versucht:
sstable2json - Es werden ziemlich große JSON-Dateien erstellt, die nur schwer zu analysieren sind. - Da das Tool Daten in eine Zeile setzt und ein kompliziertes Schema verwendet (z. B. 300 MB Datendatei = ~ 2 GB JSON), dauert es sehr lange, bis Cassandra den Quellcode wechselt Dateinamen entsprechend dem internen MechanismusKOPIEREN - Verursacht Zeitüberschreitungen bei sehr schnellen EC2-Instanzen für eine große Anzahl von DatensätzenERFASSUNG - Verursacht wie oben Timeoutsliest mit Paginierung - Ich habe timeuuid dafür verwendet, aber es gibt ungefähr 1,5k Datensätze pro Sekunde zurückIch verwende eine Amazon Ec2-Instanz mit schnellem Speicher, 15 GB RAM und 4 Kernen
Gibt es eine bessere Option für den Export von Gigabyte Daten von Cassandra nach CSV?