Suchergebnisse für Anfrage "bigdata"
Subtrahieren Sie alle Wertepaare von zwei Arrays
Ich habe zwei Vektoren,v1 undv2. Ich möchte jeden Wert von @ subtrahierv2 von jedem Wert vonv1 und speichern Sie die Ergebnisse in einem anderen Vektor. Ich würde auch gerne mit sehr großen Vektoren arbeiten (z. B. 1e6-Größe), daher sollte ich ...
JSON-Array in Pig laden
Ich habe eine JSON-Datei mit dem folgenden Format [ { "id": 2, "createdBy": 0, "status": 0, "utcTime": "Oct 14, 2014 4:49:47 PM", "placeName": "21/F, Cunningham Main Rd, Sampangi Rama NagarBengaluruKarnatakaIndia", "longitude": 77.5983817, ...
Wie funktioniert die Funktion pyspark mapPartitions?
So versuche ich Spark mit Python (Pyspark) zu lernen. Ich möchte wissen, wie die FunktionmapPartitions Arbeit. Das ist der Input und der Output, den es gibt. Ich konnte kein richtiges Beispiel aus dem Internet finden. Nehmen wir an, ich habe ein ...
Welche Funktion im Funken wird verwendet, um zwei RDDs durch Schlüssel zu kombinieren
Sagen wir, ich habe die folgenden zwei RDDs mit den folgenden Schlüsselpaarwerten. rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ]un rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ]Nun möchte ich sie durch Schlüsselwerte ...
Euklidische Distanzmatrix mit einem big.matrix-Objekt berechnen
Ich habe ein Objekt der Klassebig.matrix imR mit Dimension778844 x 2. Die Werte sind alle Ganzzahlen (Kilometer). Mein Ziel ist die Berechnung der euklidischen Distanzmatrix mit dembig.matrix und haben als Ergebnis ein Objekt ...
R, Problem mit einem hierarchischen Clustering nach einer Mehrfachkorrespondenzanalyse
Ich möchte einen Datensatz gruppieren (600000 Beobachtungen) und für jeden Cluster die Hauptkomponenten abrufen. Meine Vektoren setzen sich aus einer E-Mail und 30 qualitativen Variablen zusammen. Jede quantitative Variable hat 4 Klassen: 0,1,2 ...
Was ist der Unterschied zwischen hbase und hive? (Hadoop)
ach meinem Verständnis ist Hbase die Hadoop-Datenbank und Hive das Data Warehous it @Hive können Tabellen erstellt und darin Daten gespeichert werden. Sie können auch Ihre vorhandenen HBase-Tabellen Hive zuordnen und auf diese zugreifen. Warum ...
Wie kann ich mit Apache Spark den exakten Median berechnen?
DiesSeit [https://spark.apache.org/docs/0.7.0/api/core/spark/api/java/JavaDoubleRDD.html] enthält einige Statistikfunktionen (Mittelwert, stdev, Varianz usw.), aber keinen Median. Wie kann ich den exakten Median berechnen? Vielen Dan
Wie bestimme ich die Größe meiner HBase - Tabellen? Gibt es einen Befehl dazu?
Ich habe mehrere Tabellen in meiner Hbase-Shell, die ich auf mein Dateisystem kopieren möchte. Einige Tabellen überschreiten 100 GB. Ich habe jedoch nur noch 55 GB freien Speicherplatz in meinem lokalen Dateisystem. Daher möchte ich die Größe ...
spark Skalierbarkeit: Was mache ich falsch?
Ich verarbeite Daten mit Funken und es funktioniert mit Daten im Wert von einem Tag (40G), aber es schlägt fehl mit OOM auf eine Woche im Wert von Daten: import pyspark import datetime import operator sc = pyspark.SparkContext() sqc ...