Suchergebnisse für Anfrage "pyspark"

4 die antwort

PySpark Auswertung

Ich versuche den folgenden Code, der jeder Zeile in einer RDD eine Nummer hinzufügt und mit PySpark eine Liste von RDDs zurückgibt. from pyspark.context import SparkContext file = "file:///home/sree/code/scrap/sample.txt" sc = ...

4 die antwort

Boosting spark.yarn.executor.memoryOverhead

Ich versuche, einen (py) Spark-Job für EMR auszuführen, der eine große Datenmenge verarbeitet. Derzeit schlägt mein Job mit der folgenden Fehlermeldung fehl: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5 ...

2 die antwort

Wie gleichmäßig in Spark neu partitionieren?

Um zu testen, wie.repartition() funktioniert, ich habe den folgenden Code ausgeführt: rdd = sc.parallelize(range(100)) rdd.getNumPartitions()rdd.getNumPartitions() führte zu4. Dann lief ich: rdd = rdd.repartition(10) ...

TOP-Veröffentlichungen

2 die antwort

Wie erstelle ich eine dünne Matrix in PySpark?

Ich bin neu bei Spark. Ich möchte eine spärliche Matrix zu einer Benutzer-ID-Element-ID-Matrix machen, die speziell für eine Empfehlungs-Engine vorgesehen ist. Ich weiß, wie ich das in Python machen würde. Wie macht man das in PySpark? Hier ist, ...

2 die antwort

unionAll führt zu StackOverflow

Ich habe mit meiner eigenen Frage einige Fortschritte gemacht Wie lade ich einen Datenframe aus einem Python-Anforderungs-Stream, der eine ...

4 die antwort

Explode in PySpark

Ich möchte aus einem DataFrame, der Wortlisten enthält, einen DataFrame mit jedem Wort in einer eigenen Zeile erstellen. Wie kann ich eine Spalte in einem DataFrame auflösen? Hier ist ein Beispiel für einige meiner Versuche, bei denen Sie die ...

2 die antwort

PySpark: Lesen, Mappen und Verkleinern von mehrzeiligen Textdateien mit newAPIHadoopFile

Ich versuche so ein Problem zu lösen, das ein bisschen ähnlich wie @ idieser Beitra [https://stackoverflow.com/questions/31227363/creating-spark-data-structure-from-multiline-record] . Meine Originaldaten sind eine Textdatei, die Werte ...

2 die antwort

Vorwärts fehlende Werte in Spark / Python füllen

Ich versuche, fehlende Werte in meinem Spark-Datenframe mit dem vorherigen Nicht-Null-Wert (falls vorhanden) zu füllen. Ich habe so etwas in Python / Pandas gemacht, aber meine Daten sind zu groß für Pandas (auf einem kleinen Cluster) und ich ...

2 die antwort

Wie wird PySpark DataFrame gehasht, um einen Float zurückzugeben?

Sagen wir, ich habe Funken dataframe +--------+-----+ | letter|count| +--------+-----+ | a| 2| | b| 2| | c| 1| +--------+-----+Dann wollte ich meinen finden. So tat ic df = df.groupBy().mean('letter') welche einen Datenrahmen ...

2 die antwort

Config-Datei zum Definieren der JSON-Schemastruktur in PySpark

Ich habe eine PySpark-Anwendung erstellt, die die JSON-Datei in einem Datenrahmen über ein definiertes Schema liest. Codebeispiel unten schema = StructType([ StructField("domain", StringType(), True), StructField("timestamp", LongType(), True), ...