Suchergebnisse für Anfrage "bigdata"

2 die antwort

Subtrahieren Sie alle Wertepaare von zwei Arrays

Ich habe zwei Vektoren,v1 undv2. Ich möchte jeden Wert von @ subtrahierv2 von jedem Wert vonv1 und speichern Sie die Ergebnisse in einem anderen Vektor. Ich würde auch gerne mit sehr großen Vektoren arbeiten (z. B. 1e6-Größe), daher sollte ich ...

1 die antwort

JSON-Array in Pig laden

Ich habe eine JSON-Datei mit dem folgenden Format [ { "id": 2, "createdBy": 0, "status": 0, "utcTime": "Oct 14, 2014 4:49:47 PM", "placeName": "21/F, Cunningham Main Rd, Sampangi Rama NagarBengaluruKarnatakaIndia", "longitude": 77.5983817, ...

3 die antwort

Wie funktioniert die Funktion pyspark mapPartitions?

So versuche ich Spark mit Python (Pyspark) zu lernen. Ich möchte wissen, wie die FunktionmapPartitions Arbeit. Das ist der Input und der Output, den es gibt. Ich konnte kein richtiges Beispiel aus dem Internet finden. Nehmen wir an, ich habe ein ...

TOP-Veröffentlichungen

2 die antwort

Welche Funktion im Funken wird verwendet, um zwei RDDs durch Schlüssel zu kombinieren

Sagen wir, ich habe die folgenden zwei RDDs mit den folgenden Schlüsselpaarwerten. rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ]un rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ]Nun möchte ich sie durch Schlüsselwerte ...

2 die antwort

Euklidische Distanzmatrix mit einem big.matrix-Objekt berechnen

Ich habe ein Objekt der Klassebig.matrix imR mit Dimension778844 x 2. Die Werte sind alle Ganzzahlen (Kilometer). Mein Ziel ist die Berechnung der euklidischen Distanzmatrix mit dembig.matrix und haben als Ergebnis ein Objekt ...

4 die antwort

R, Problem mit einem hierarchischen Clustering nach einer Mehrfachkorrespondenzanalyse

Ich möchte einen Datensatz gruppieren (600000 Beobachtungen) und für jeden Cluster die Hauptkomponenten abrufen. Meine Vektoren setzen sich aus einer E-Mail und 30 qualitativen Variablen zusammen. Jede quantitative Variable hat 4 Klassen: 0,1,2 ...

2 die antwort

Was ist der Unterschied zwischen hbase und hive? (Hadoop)

ach meinem Verständnis ist Hbase die Hadoop-Datenbank und Hive das Data Warehous it @Hive können Tabellen erstellt und darin Daten gespeichert werden. Sie können auch Ihre vorhandenen HBase-Tabellen Hive zuordnen und auf diese zugreifen. Warum ...

4 die antwort

Wie kann ich mit Apache Spark den exakten Median berechnen?

DiesSeit [https://spark.apache.org/docs/0.7.0/api/core/spark/api/java/JavaDoubleRDD.html] enthält einige Statistikfunktionen (Mittelwert, stdev, Varianz usw.), aber keinen Median. Wie kann ich den exakten Median berechnen? Vielen Dan

6 die antwort

Wie bestimme ich die Größe meiner HBase - Tabellen? Gibt es einen Befehl dazu?

Ich habe mehrere Tabellen in meiner Hbase-Shell, die ich auf mein Dateisystem kopieren möchte. Einige Tabellen überschreiten 100 GB. Ich habe jedoch nur noch 55 GB freien Speicherplatz in meinem lokalen Dateisystem. Daher möchte ich die Größe ...

4 die antwort

spark Skalierbarkeit: Was mache ich falsch?

Ich verarbeite Daten mit Funken und es funktioniert mit Daten im Wert von einem Tag (40G), aber es schlägt fehl mit OOM auf eine Woche im Wert von Daten: import pyspark import datetime import operator sc = pyspark.SparkContext() sqc ...