Suchergebnisse für Anfrage "rdd"

Ich benutzeSpark-1.4.1 imCDH-5.4.4. Ich benutzerdd.cache() Funktion, aber es zeigt nichts inStorage tab aufSpark History WebUI Hat jemand die gleichen Probleme? Wie man es repariert

pyspark python apache-spark random

4 die antwort

Zufallszahlengenerierung in PySpark

Beginnen wir mit einer einfachen Funktion, die immer eine zufällige Ganzzahl zurückgibt: import numpy as np def f(x): return np.random.randint(1000) und ein RDD mit Nullen gefüllt und mit @ abgebildf: rdd = sc.parallelize([0] * 10).map(f)Da ...

apache-spark persist shuffle

8 die antwort

Spark: Unterschied zwischen Shuffle Write, Shuffle Spill (Speicher), Shuffle Spill (Disk)?

Ich habe den folgenden Spark-Job, der versucht, alles im Speicher zu behalten: val myOutRDD = myInRDD.flatMap { fp => val tuple2List: ListBuffer[(String, myClass)] = ListBuffer() : tuple2List }.persist(StorageLevel.MEMORY_ONLY).reduceByKey { ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

spark-streaming apache-spark

4 die antwort

Wird es ein Szenario geben, in dem Spark-RDDs die Unveränderlichkeit nicht erfüllen ?

Spark RDDs sind unveränderlich, fehlertolerant und belastbar. Erfüllen RDDs die Unveränderlichkeit in allen Szenarien? Oder gibt es einen Fall, in dem RDD die Unveränderlichkeit möglicherweise nicht befriedigt, sei es im Streaming oder im Core?

python apache-spark performance scala

2 die antwort

Spark Leistung für Scala vs Python

Ich bevorzuge Python gegenüber Scala. Da Spark jedoch ursprünglich in Scala geschrieben wurde, hatte ich aus offensichtlichen Gründen damit gerechnet, dass mein Code in Scala schneller ausgeführt wird als in der Python-Version. Mit dieser ...

apache-spark

2 die antwort

Wie erhalte ich Daten von einer bestimmten Partition in Spark RDD?

Ich möchte auf Daten von einer bestimmten Partition in Spark RDD zugreifen. Ich kann die Adresse einer Partition wie folgt erhalten: myRDD.partitions(0)Aber ich möchte Daten von @ erhaltmyRDD.partitions(0) partition. Ich habe die offizielle ...

python apache-spark pyspark

2 die antwort

Klassenfunktionen an PySpark RDD übergeben

Ich habe eine Klasse namens some_class () in einer Python-Datei hier: /some-folder/app/bin/file.py Ich importiere es hier in meinen Code: /some-folder2/app/code/file2.pyDurc import sys sys.path.append('/some-folder/app/bin') from file import ...

distributed-computing bigdata apache-spark hadoop

4 die antwort

Würde Spark das RDD selbst deaktivieren, wenn er merkt, dass es nicht mehr verwendet wird?

Wir können eine RDD im Speicher und / oder auf der Festplatte beibehalten, wenn wir sie mehrmals verwenden möchten. Müssen wir sie jedoch später selbst deaktivieren oder führt Spark eine Art Garbage Collection durch und deaktiviert die RDD, wenn ...

bigdata apache-spark python pyspark

10 die antwort

PySpark DataFrames - Aufzählung ohne Konvertierung in Pandas?

Ich habe ein sehr großes pyspark.sql.dataframe.DataFrame mit dem Namen df. Ich brauche eine Möglichkeit, um Datensätze aufzulisten. Daher kann ich auf Datensätze mit einem bestimmten Index zugreifen. (oder Datensatzgruppe mit Indexbereich ...

apache-spark pyspark python

4 die antwort

Konvertieren Sie eine RDD in iterable: PySpark?

Ich habe eine RDD, die ich erstelle, indem ich eine Textdatei lade und sie vorverarbeite. Ich möchte es nicht sammeln und auf der Festplatte oder im Speicher (vollständige Daten) speichern, sondern es an eine andere Funktion in Python übergeben, ...

Seite 5 von 10

3 456 7

Suchergebnisse für Anfrage "rdd"

Spark Cache RDD wird in der Spark History WebUI - Storage @ nicht angezei

Zufallszahlengenerierung in PySpark

Spark: Unterschied zwischen Shuffle Write, Shuffle Spill (Speicher), Shuffle Spill (Disk)?

Beliebte Schlagwörter

TOP-Veröffentlichungen

Wird es ein Szenario geben, in dem Spark-RDDs die Unveränderlichkeit nicht erfüllen ?

Spark Leistung für Scala vs Python

Wie erhalte ich Daten von einer bestimmten Partition in Spark RDD?

Klassenfunktionen an PySpark RDD übergeben

Würde Spark das RDD selbst deaktivieren, wenn er merkt, dass es nicht mehr verwendet wird?

PySpark DataFrames - Aufzählung ohne Konvertierung in Pandas?

Konvertieren Sie eine RDD in iterable: PySpark?

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "rdd"

Beliebte Schlagwörter

TOP-Veröffentlichungen