Suchergebnisse für Anfrage "rdd"
Spark schnellste Weg zur Erstellung von RDD von Numpy Arrays
Meine Spark-Anwendung verwendet RDDs von Numpy-Arrays. Im Moment lese ich meine Daten aus AWS S3 und es wird als einfache Textdatei dargestellt, in der jede Zeile ein Vektor ist und jedes Element durch ein Leerzeichen getrennt ist. Beispiel: 1 2 ...
Spark dataframe transformiert mehrere Zeilen in eine Spalte
Ich bin ein Anfänger zu funken, und ich möchteverwandel untersource dataframe (aus JSON-Datei laden): +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | c| 3| ...
Spark: Nicht genügend Speicherplatz, um Rot im Container zwischenzuspeichern, obwohl noch viel Gesamtspeicher vorhanden ist.
Ich habe einen Cluster mit 30 Knoten, jeder Knoten hat 32 Kerne und 240 G Speicher (AWS cr1.8xlarge-Instanz). Ich habe folgende Konfigurationen: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90 ...
Return RDD der größten N Werte von einem anderen RDD in SPARK
Ich versuche, eine RDD von Tupeln zu filtern, um die größten N Tupel basierend auf Schlüsselwerten zurückzugeben. Ich brauche das Rückgabeformat, um ein RDD zu sein. So die RDD: [(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')] gefiltert ...
Stackoverflow aufgrund langer RDD-Linie
Ich habe Tausende kleiner Dateien in HDFS. Für die Verarbeitung einer etwas kleineren Teilmenge von Dateien (wiederum in Tausendern) enthält fileList eine Liste der zu verarbeitenden Dateipfade. // fileList == list of filepaths in HDFS var ...
Was ist RDD im Funken
Definition sagt: RDD ist unveränderlich verteilte Sammlung von Objekten Ich verstehe nicht ganz was es bedeutet. Ist es wie Daten (partitionierte Objekte), die auf der Festplatte gespeichert sind? Wenn ja, wie kommt es, dass RDDs ...
Default Partitioning Scheme in Spark
Wenn ich den folgenden Befehl ausführe: scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist() rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at <console>:22 scala> ...
Spark Mlib FPGrowth-Job schlägt mit Speicherfehler fehl
Ich habe einen ziemlich einfachen Anwendungsfall, aber möglicherweise eine sehr große Ergebnismenge. Mein Code macht folgendes (auf Pyspark Shell): from pyspark.mllib.fpm import FPGrowth data ...
Was bedeutet "Übersprungene Bühne" in der Apache Spark-Webbenutzeroberfläche?
Von meiner Spark-Benutzeroberfläche. Was bedeutet übersprungen? [/imgs/cyvd1.png]
Filtering RDD Basierend auf der Bedingung und dem Extrahieren übereinstimmender Daten in Spark Python
Ich habe die Daten wie, cl_id cn_id cn_value 10004, 77173296 ,390.0 10004, 77173299 ,376.0 10004, 77173300 ,0.0 20005, 77173296 ,0.0 20005, 77173299 ,6.0 2005, 77438800 ,2.0 Cl_id-IDs: 10004, 20005 Filter von 10004 10004, 77173296 ,390.0 ...