Suchergebnisse für Anfrage "rdd"

6 die antwort

Spark schnellste Weg zur Erstellung von RDD von Numpy Arrays

Meine Spark-Anwendung verwendet RDDs von Numpy-Arrays. Im Moment lese ich meine Daten aus AWS S3 und es wird als einfache Textdatei dargestellt, in der jede Zeile ein Vektor ist und jedes Element durch ein Leerzeichen getrennt ist. Beispiel: 1 2 ...

4 die antwort

Spark dataframe transformiert mehrere Zeilen in eine Spalte

Ich bin ein Anfänger zu funken, und ich möchteverwandel untersource dataframe (aus JSON-Datei laden): +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | c| 3| ...

0 die antwort

Spark: Nicht genügend Speicherplatz, um Rot im Container zwischenzuspeichern, obwohl noch viel Gesamtspeicher vorhanden ist.

Ich habe einen Cluster mit 30 Knoten, jeder Knoten hat 32 Kerne und 240 G Speicher (AWS cr1.8xlarge-Instanz). Ich habe folgende Konfigurationen: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90 ...

TOP-Veröffentlichungen

4 die antwort

Return RDD der größten N Werte von einem anderen RDD in SPARK

Ich versuche, eine RDD von Tupeln zu filtern, um die größten N Tupel basierend auf Schlüsselwerten zurückzugeben. Ich brauche das Rückgabeformat, um ein RDD zu sein. So die RDD: [(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')] gefiltert ...

2 die antwort

Stackoverflow aufgrund langer RDD-Linie

Ich habe Tausende kleiner Dateien in HDFS. Für die Verarbeitung einer etwas kleineren Teilmenge von Dateien (wiederum in Tausendern) enthält fileList eine Liste der zu verarbeitenden Dateipfade. // fileList == list of filepaths in HDFS var ...

16 die antwort

Was ist RDD im Funken

Definition sagt: RDD ist unveränderlich verteilte Sammlung von Objekten Ich verstehe nicht ganz was es bedeutet. Ist es wie Daten (partitionierte Objekte), die auf der Festplatte gespeichert sind? Wenn ja, wie kommt es, dass RDDs ...

2 die antwort

Default Partitioning Scheme in Spark

Wenn ich den folgenden Befehl ausführe: scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist() rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at <console>:22 scala> ...

2 die antwort

Spark Mlib FPGrowth-Job schlägt mit Speicherfehler fehl

Ich habe einen ziemlich einfachen Anwendungsfall, aber möglicherweise eine sehr große Ergebnismenge. Mein Code macht folgendes (auf Pyspark Shell): from pyspark.mllib.fpm import FPGrowth data ...

2 die antwort

Was bedeutet "Übersprungene Bühne" in der Apache Spark-Webbenutzeroberfläche?

Von meiner Spark-Benutzeroberfläche. Was bedeutet übersprungen? [/imgs/cyvd1.png]

2 die antwort

Filtering RDD Basierend auf der Bedingung und dem Extrahieren übereinstimmender Daten in Spark Python

Ich habe die Daten wie, cl_id cn_id cn_value 10004, 77173296 ,390.0 10004, 77173299 ,376.0 10004, 77173300 ,0.0 20005, 77173296 ,0.0 20005, 77173299 ,6.0 2005, 77438800 ,2.0 Cl_id-IDs: 10004, 20005 Filter von 10004 10004, 77173296 ,390.0 ...