Suchergebnisse für Anfrage "rdd"

2 die antwort

Spark Lesen von Python3 Pickle als Eingabe

Meine Daten sind als Sätze von Python 3-Dateien verfügbar. Die meisten von ihnen sind Serialisierung von PandasDataFrames. Ich würde gerne Spark verwenden, da ich mehr Arbeitsspeicher und CPU benötige, die ein Computer haben kann. Außerdem ...

4 die antwort

pyspark: 'PipelinedRDD' Objekt ist nicht iterierbar

Ich erhalte diesen Fehler, aber ich weiß nicht warum. Grundsätzlich irre ich mich von diesem Code: a = data.mapPartitions(helper(locations))where data ist ein RDD und mein Helfer ist wie folgt definiert: def helper(iterator, locations): for x ...

2 die antwort

Wie konvertiere ich eine RDD [Zeile] zurück in einen DataFrame [duplizieren]

Diese Frage hat hier bereits eine Antwort: So konvertieren Sie ein rdd-Objekt in einen Datenrahmen in spark [/questions/29383578/how-to-convert-rdd-object-to-dataframe-in-spark] 10 Antworten Ich habe versucht, RDDs in DataFrames umzuwandeln und ...

TOP-Veröffentlichungen

2 die antwort

Hol den Maximalwert für jeden Schlüssel in einem Spark-RDD

Was ist der beste Weg, um die maximale Zeile (Wert) zurückzugeben, die jedem eindeutigen Schlüssel in einer Funken-RDD zugeordnet ist? Ich benutze Python und habe es mit Math max versucht, indem ich es mit Schlüsseln und Aggregaten abbilde und ...

4 die antwort

Wie viele Partitionen erstellt Spark, wenn eine Datei aus dem S3-Bucket geladen wird?

Wenn die Datei standardmäßig aus HDFS geladen wird, erstellt spark eine Partition pro Block. Aber wie entscheidet der Funke über Partitionen, wenn eine Datei aus dem S3-Bucket geladen wird?

4 die antwort

Spark: Unterschied beim Einlesen von .gz und .bz2

Normalerweise lese und schreibe ich Dateien in Spark mit .gz, wobei die Anzahl der Dateien der Anzahl der RDD-Partitionen entsprechen sollte. Das heißt Eine riesige .gz-Datei wird in eine einzelne Partition eingelesen. Wenn ich jedoch eine ...

28 die antwort

Differenz zwischen DataFrame, Dataset und RDD in Spark

Ich frage mich nur, was ist der Unterschied zwischen einemRDD undDataFrame (Spark 2.0.0 DataFrame ist ein reiner Typalias fürDataset[Row]) in Apache Spark? Kannst du eins in das andere konvertieren?

4 die antwort

Vergleichen von zwei RDDs

Ich habe zwei RDD [Array [String]], nennen wir sie rdd1 und rdd2. Ich würde ein neues RDD erstellen, das nur die Einträge von rdd2 enthält, nicht in rdd1 (basierend auf einem Schlüssel). Ich verwende Spark auf Scala über Intellij. Ich habe rdd1 ...

2 die antwort

java.io.NotSerializableException im Spark-Streaming mit aktiviertem Checkpointing

code unten: def main(args: Array[String]) { val sc = new SparkContext val sec = Seconds(3) val ssc = new StreamingContext(sc, sec) ssc.checkpoint("./checkpoint") val rdd = ssc.sparkContext.parallelize(Seq("a","b","c")) val inputDStream = ...

4 die antwort

Lesen in mehreren Dateien, die im tar.gz-Archiv komprimiert wurden, in Spark [duplizieren]

Diese Frage hat hier bereits eine Antwort: Lesen Sie ganze Textdateien aus einer Komprimierung in Spark [/questions/36604145/read-whole-text-files-from-a-compression-in-spark] 2 Antworten Ich versuche, eine Spark-RDD aus mehreren in einen Teer ...