Architektur für die Datenbankanalyse

Wir haben eine Architektur, in der wir jedem Kunden Business Intelligence-ähnliche Dienste für seine Website (Internet-Händler) bereitstellen. Jetzt muss ich diese Daten intern analysieren (zur Verbesserung des Algorithmus, zur Leistungsnachverfolgung usw.) und diese sind möglicherweise ziemlich umfangreich: Wir haben bis zu Millionen Zeilen / Kunde / Tag, und ich möchte möglicherweise wissen, wie viele Abfragen es gibt Wir hatten im letzten Monat wöchentlich verglichen, etc ... das ist die Größenordnung von Milliarden Einträgen, wenn nicht mehr.

Die derzeitige Vorgehensweise ist Standard: Tägliche Skripte, die die Datenbanken durchsuchen und große CSV-Dateien generieren. Diese Lösung gefällt mir aus mehreren Gründen nicht:

ie bei solchen Skripten üblich, fallen sie in die Kategorie "Einmal schreiben" und "Nie wieder berühren"s ist notwendig, die Dinge in "Echtzeit" zu verfolgen (wir haben ein separates Toolset, um die letzten Stunden des Geldautomaten abzufragendies ist langsam und nicht "agil"

bwohl ich einige Erfahrung im Umgang mit riesigen Datensätzen für wissenschaftliche Zwecke habe, bin ich ein absoluter Anfänger in Bezug auf traditionelles RDBM. Es scheint, dass die Verwendung einer spaltenorientierten Datenbank für Analysen eine Lösung sein könnte (die Analyse benötigt nicht die meisten Daten, die wir in der App-Datenbank haben), aber ich würde gerne wissen, welche anderen Optionen für diese Art von Problemen verfügbar sind.

Antworten auf die Frage(3)

Ihre Antwort auf die Frage