Suchergebnisse für Anfrage "rdd"

2 die antwort

Spark Cache RDD wird in der Spark History WebUI - Storage @ nicht angezei

Ich benutzeSpark-1.4.1 imCDH-5.4.4. Ich benutzerdd.cache() Funktion, aber es zeigt nichts inStorage tab aufSpark History WebUI Hat jemand die gleichen Probleme? Wie man es repariert

4 die antwort

Zufallszahlengenerierung in PySpark

Beginnen wir mit einer einfachen Funktion, die immer eine zufällige Ganzzahl zurückgibt: import numpy as np def f(x): return np.random.randint(1000) und ein RDD mit Nullen gefüllt und mit @ abgebildf: rdd = sc.parallelize([0] * 10).map(f)Da ...

8 die antwort

Spark: Unterschied zwischen Shuffle Write, Shuffle Spill (Speicher), Shuffle Spill (Disk)?

Ich habe den folgenden Spark-Job, der versucht, alles im Speicher zu behalten: val myOutRDD = myInRDD.flatMap { fp => val tuple2List: ListBuffer[(String, myClass)] = ListBuffer() : tuple2List }.persist(StorageLevel.MEMORY_ONLY).reduceByKey { ...

TOP-Veröffentlichungen

4 die antwort

Wird es ein Szenario geben, in dem Spark-RDDs die Unveränderlichkeit nicht erfüllen ?

Spark RDDs sind unveränderlich, fehlertolerant und belastbar. Erfüllen RDDs die Unveränderlichkeit in allen Szenarien? Oder gibt es einen Fall, in dem RDD die Unveränderlichkeit möglicherweise nicht befriedigt, sei es im Streaming oder im Core?

2 die antwort

Spark Leistung für Scala vs Python

Ich bevorzuge Python gegenüber Scala. Da Spark jedoch ursprünglich in Scala geschrieben wurde, hatte ich aus offensichtlichen Gründen damit gerechnet, dass mein Code in Scala schneller ausgeführt wird als in der Python-Version. Mit dieser ...

2 die antwort

Wie erhalte ich Daten von einer bestimmten Partition in Spark RDD?

Ich möchte auf Daten von einer bestimmten Partition in Spark RDD zugreifen. Ich kann die Adresse einer Partition wie folgt erhalten: myRDD.partitions(0)Aber ich möchte Daten von @ erhaltmyRDD.partitions(0) partition. Ich habe die offizielle ...

2 die antwort

Klassenfunktionen an PySpark RDD übergeben

Ich habe eine Klasse namens some_class () in einer Python-Datei hier: /some-folder/app/bin/file.py Ich importiere es hier in meinen Code: /some-folder2/app/code/file2.pyDurc import sys sys.path.append('/some-folder/app/bin') from file import ...

4 die antwort

Würde Spark das RDD selbst deaktivieren, wenn er merkt, dass es nicht mehr verwendet wird?

Wir können eine RDD im Speicher und / oder auf der Festplatte beibehalten, wenn wir sie mehrmals verwenden möchten. Müssen wir sie jedoch später selbst deaktivieren oder führt Spark eine Art Garbage Collection durch und deaktiviert die RDD, wenn ...

10 die antwort

PySpark DataFrames - Aufzählung ohne Konvertierung in Pandas?

Ich habe ein sehr großes pyspark.sql.dataframe.DataFrame mit dem Namen df. Ich brauche eine Möglichkeit, um Datensätze aufzulisten. Daher kann ich auf Datensätze mit einem bestimmten Index zugreifen. (oder Datensatzgruppe mit Indexbereich ...

4 die antwort

Konvertieren Sie eine RDD in iterable: PySpark?

Ich habe eine RDD, die ich erstelle, indem ich eine Textdatei lade und sie vorverarbeite. Ich möchte es nicht sammeln und auf der Festplatte oder im Speicher (vollständige Daten) speichern, sondern es an eine andere Funktion in Python übergeben, ...