Suchergebnisse für Anfrage "bigdata"
Entfernen doppelter Einheiten aus dem Datenrahmen
Ich arbeite an einem großen Datensatz mit n Kovariaten. Viele der Zeilen sind Duplikate. Um die Duplikate zu identifizieren, muss eine Teilmenge der Kovariat...
Arbeiten mit Big Data in Python und Numpy, nicht genug RAM, wie können Teilergebnisse auf der Disc gespeichert werden?
Ich versuche, Algorithmen für 1000-dimensionale Daten mit mehr als 200.000 Datenpunkten in Python zu implementieren. Ich möchte numpy, scipy, sklearn, networ...
Wie kann die GLM-Schätzung beschleunigt werden?
Ich verwende RStudio 0.97.320 (R 2.15.3) auf Amazon EC2. Mein Datenrahmen hat 200.000 Zeilen und 12 Spalten.Ich versuche, eine logistische Regression mit ung...
Wie erhalte ich ein Array / einen Beutel mit Elementen von der Hive-Gruppe nach Operator?
Ich möchte nach einem bestimmten Feld gruppieren und die Ausgabe mit gruppierten Feldern erhalten. Nachfolgend finden Sie ein Beispiel für das, was ich errei...
konvertiere data.frame nach ff
Ich möchte ein data.frame in ein ff-Objekt konvertieren, mit as.ffdf wie beschriebenHier
Wie erstelle ich einen großen Pandas-Datenrahmen aus einer SQL-Abfrage, ohne dass der Arbeitsspeicher knapp wird?
Ich habe Probleme beim Abfragen einer Tabelle mit mehr als 5 Millionen Datensätzen aus meiner MS SQL Server-Datenbank. Ich möchte in der Lage sein, alle Date...
Wie gebe ich die Ergebnisse einer HiveQL-Abfrage an CSV aus?
Wir möchten die Ergebnisse einer Hive-Abfrage in eine CSV-Datei einfügen. Ich dachte, der Befehl sollte so aussehen: