Suchergebnisse für Anfrage "rdd"

Meine Spark-Anwendung verwendet RDDs von Numpy-Arrays. Im Moment lese ich meine Daten aus AWS S3 und es wird als einfache Textdatei dargestellt, in der jede Zeile ein Vektor ist und jedes Element durch ein Leerzeichen getrennt ist. Beispiel: 1 2 ...

apache-spark-sql apache-spark python dataframe

4 die antwort

Spark dataframe transformiert mehrere Zeilen in eine Spalte

Ich bin ein Anfänger zu funken, und ich möchteverwandel untersource dataframe (aus JSON-Datei laden): +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | c| 3| ...

apache-spark memory storage

0 die antwort

Spark: Nicht genügend Speicherplatz, um Rot im Container zwischenzuspeichern, obwohl noch viel Gesamtspeicher vorhanden ist.

Ich habe einen Cluster mit 30 Knoten, jeder Knoten hat 32 Kerne und 240 G Speicher (AWS cr1.8xlarge-Instanz). Ich habe folgende Konfigurationen: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90 ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

apache-spark pyspark python

4 die antwort

Return RDD der größten N Werte von einem anderen RDD in SPARK

Ich versuche, eine RDD von Tupeln zu filtern, um die größten N Tupel basierend auf Schlüsselwerten zurückzugeben. Ich brauche das Rückgabeformat, um ein RDD zu sein. So die RDD: [(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')] gefiltert ...

scala apache-spark

2 die antwort

Stackoverflow aufgrund langer RDD-Linie

Ich habe Tausende kleiner Dateien in HDFS. Für die Verarbeitung einer etwas kleineren Teilmenge von Dateien (wiederum in Tausendern) enthält fileList eine Liste der zu verarbeitenden Dateipfade. // fileList == list of filepaths in HDFS var ...

scala hadoop apache-spark

16 die antwort

Was ist RDD im Funken

Definition sagt: RDD ist unveränderlich verteilte Sammlung von Objekten Ich verstehe nicht ganz was es bedeutet. Ist es wie Daten (partitionierte Objekte), die auf der Festplatte gespeichert sind? Wenn ja, wie kommt es, dass RDDs ...

apache-spark partitioning

2 die antwort

Default Partitioning Scheme in Spark

Wenn ich den folgenden Befehl ausführe: scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist() rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at <console>:22 scala> ...

apache-spark apache-spark-mllib

2 die antwort

Spark Mlib FPGrowth-Job schlägt mit Speicherfehler fehl

Ich habe einen ziemlich einfachen Anwendungsfall, aber möglicherweise eine sehr große Ergebnismenge. Mein Code macht folgendes (auf Pyspark Shell): from pyspark.mllib.fpm import FPGrowth data ...

apache-spark

2 die antwort

Was bedeutet "Übersprungene Bühne" in der Apache Spark-Webbenutzeroberfläche?

Von meiner Spark-Benutzeroberfläche. Was bedeutet übersprungen? [/imgs/cyvd1.png]

python apache-spark

2 die antwort

Filtering RDD Basierend auf der Bedingung und dem Extrahieren übereinstimmender Daten in Spark Python

Ich habe die Daten wie, cl_id cn_id cn_value 10004, 77173296 ,390.0 10004, 77173299 ,376.0 10004, 77173300 ,0.0 20005, 77173296 ,0.0 20005, 77173299 ,6.0 2005, 77438800 ,2.0 Cl_id-IDs: 10004, 20005 Filter von 10004 10004, 77173296 ,390.0 ...

Seite 7 von 10

5 678 9

Suchergebnisse für Anfrage "rdd"

Spark schnellste Weg zur Erstellung von RDD von Numpy Arrays

Spark dataframe transformiert mehrere Zeilen in eine Spalte

Spark: Nicht genügend Speicherplatz, um Rot im Container zwischenzuspeichern, obwohl noch viel Gesamtspeicher vorhanden ist.

Beliebte Schlagwörter

TOP-Veröffentlichungen

Return RDD der größten N Werte von einem anderen RDD in SPARK

Stackoverflow aufgrund langer RDD-Linie

Was ist RDD im Funken

Default Partitioning Scheme in Spark

Spark Mlib FPGrowth-Job schlägt mit Speicherfehler fehl

Was bedeutet "Übersprungene Bühne" in der Apache Spark-Webbenutzeroberfläche?

Filtering RDD Basierend auf der Bedingung und dem Extrahieren übereinstimmender Daten in Spark Python

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "rdd"

Beliebte Schlagwörter

TOP-Veröffentlichungen