Suchergebnisse für Anfrage "rdd"

Meine Daten sind als Sätze von Python 3-Dateien verfügbar. Die meisten von ihnen sind Serialisierung von PandasDataFrames. Ich würde gerne Spark verwenden, da ich mehr Arbeitsspeicher und CPU benötige, die ein Computer haben kann. Außerdem ...

pyspark

4 die antwort

pyspark: 'PipelinedRDD' Objekt ist nicht iterierbar

Ich erhalte diesen Fehler, aber ich weiß nicht warum. Grundsätzlich irre ich mich von diesem Code: a = data.mapPartitions(helper(locations))where data ist ein RDD und mein Helfer ist wie folgt definiert: def helper(iterator, locations): for x ...

apache-spark dataframe scala

2 die antwort

Wie konvertiere ich eine RDD [Zeile] zurück in einen DataFrame [duplizieren]

Diese Frage hat hier bereits eine Antwort: So konvertieren Sie ein rdd-Objekt in einen Datenrahmen in spark [/questions/29383578/how-to-convert-rdd-object-to-dataframe-in-spark] 10 Antworten Ich habe versucht, RDDs in DataFrames umzuwandeln und ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

pyspark python apache-spark

2 die antwort

Hol den Maximalwert für jeden Schlüssel in einem Spark-RDD

Was ist der beste Weg, um die maximale Zeile (Wert) zurückzugeben, die jedem eindeutigen Schlüssel in einer Funken-RDD zugeordnet ist? Ich benutze Python und habe es mit Math max versucht, indem ich es mit Schlüsseln und Aggregaten abbilde und ...

bigdata amazon-s3 hadoop apache-spark

4 die antwort

Wie viele Partitionen erstellt Spark, wenn eine Datei aus dem S3-Bucket geladen wird?

Wenn die Datei standardmäßig aus HDFS geladen wird, erstellt spark eine Partition pro Block. Aber wie entscheidet der Funke über Partitionen, wenn eine Datei aus dem S3-Bucket geladen wird?

apache-spark gz bz2

4 die antwort

Spark: Unterschied beim Einlesen von .gz und .bz2

Normalerweise lese und schreibe ich Dateien in Spark mit .gz, wobei die Anzahl der Dateien der Anzahl der RDD-Partitionen entsprechen sollte. Das heißt Eine riesige .gz-Datei wird in eine einzelne Partition eingelesen. Wenn ich jedoch eine ...

apache-spark-sql apache-spark-dataset apache-spark

28 die antwort

Differenz zwischen DataFrame, Dataset und RDD in Spark

Ich frage mich nur, was ist der Unterschied zwischen einemRDD undDataFrame (Spark 2.0.0 DataFrame ist ein reiner Typalias fürDataset[Row]) in Apache Spark? Kannst du eins in das andere konvertieren?

compare scala apache-spark

4 die antwort

Vergleichen von zwei RDDs

Ich habe zwei RDD [Array [String]], nennen wir sie rdd1 und rdd2. Ich würde ein neues RDD erstellen, das nur die Einträge von rdd2 enthält, nicht in rdd1 (basierend auf einem Schlüssel). Ich verwende Spark auf Scala über Intellij. Ich habe rdd1 ...

apache-spark spark-streaming

2 die antwort

java.io.NotSerializableException im Spark-Streaming mit aktiviertem Checkpointing

code unten: def main(args: Array[String]) { val sc = new SparkContext val sec = Seconds(3) val ssc = new StreamingContext(sc, sec) ssc.checkpoint("./checkpoint") val rdd = ssc.sparkContext.parallelize(Seq("a","b","c")) val inputDStream = ...

apache-spark scala gzip

4 die antwort

Lesen in mehreren Dateien, die im tar.gz-Archiv komprimiert wurden, in Spark [duplizieren]

Diese Frage hat hier bereits eine Antwort: Lesen Sie ganze Textdateien aus einer Komprimierung in Spark [/questions/36604145/read-whole-text-files-from-a-compression-in-spark] 2 Antworten Ich versuche, eine Spark-RDD aus mehreren in einen Teer ...

Seite 9 von 10

6 7 8910

Suchergebnisse für Anfrage "rdd"

Spark Lesen von Python3 Pickle als Eingabe

pyspark: 'PipelinedRDD' Objekt ist nicht iterierbar

Wie konvertiere ich eine RDD [Zeile] zurück in einen DataFrame [duplizieren]

Beliebte Schlagwörter

TOP-Veröffentlichungen

Hol den Maximalwert für jeden Schlüssel in einem Spark-RDD

Wie viele Partitionen erstellt Spark, wenn eine Datei aus dem S3-Bucket geladen wird?

Spark: Unterschied beim Einlesen von .gz und .bz2

Differenz zwischen DataFrame, Dataset und RDD in Spark

Vergleichen von zwei RDDs

java.io.NotSerializableException im Spark-Streaming mit aktiviertem Checkpointing

Lesen in mehreren Dateien, die im tar.gz-Archiv komprimiert wurden, in Spark [duplizieren]

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "rdd"

Beliebte Schlagwörter

TOP-Veröffentlichungen