Suchergebnisse für Anfrage "pyspark"
PySpark Auswertung
Ich versuche den folgenden Code, der jeder Zeile in einer RDD eine Nummer hinzufügt und mit PySpark eine Liste von RDDs zurückgibt. from pyspark.context import SparkContext file = "file:///home/sree/code/scrap/sample.txt" sc = ...
Boosting spark.yarn.executor.memoryOverhead
Ich versuche, einen (py) Spark-Job für EMR auszuführen, der eine große Datenmenge verarbeitet. Derzeit schlägt mein Job mit der folgenden Fehlermeldung fehl: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5 ...
Wie gleichmäßig in Spark neu partitionieren?
Um zu testen, wie.repartition() funktioniert, ich habe den folgenden Code ausgeführt: rdd = sc.parallelize(range(100)) rdd.getNumPartitions()rdd.getNumPartitions() führte zu4. Dann lief ich: rdd = rdd.repartition(10) ...
Wie erstelle ich eine dünne Matrix in PySpark?
Ich bin neu bei Spark. Ich möchte eine spärliche Matrix zu einer Benutzer-ID-Element-ID-Matrix machen, die speziell für eine Empfehlungs-Engine vorgesehen ist. Ich weiß, wie ich das in Python machen würde. Wie macht man das in PySpark? Hier ist, ...
unionAll führt zu StackOverflow
Ich habe mit meiner eigenen Frage einige Fortschritte gemacht Wie lade ich einen Datenframe aus einem Python-Anforderungs-Stream, der eine ...
Explode in PySpark
Ich möchte aus einem DataFrame, der Wortlisten enthält, einen DataFrame mit jedem Wort in einer eigenen Zeile erstellen. Wie kann ich eine Spalte in einem DataFrame auflösen? Hier ist ein Beispiel für einige meiner Versuche, bei denen Sie die ...
PySpark: Lesen, Mappen und Verkleinern von mehrzeiligen Textdateien mit newAPIHadoopFile
Ich versuche so ein Problem zu lösen, das ein bisschen ähnlich wie @ idieser Beitra [https://stackoverflow.com/questions/31227363/creating-spark-data-structure-from-multiline-record] . Meine Originaldaten sind eine Textdatei, die Werte ...
Vorwärts fehlende Werte in Spark / Python füllen
Ich versuche, fehlende Werte in meinem Spark-Datenframe mit dem vorherigen Nicht-Null-Wert (falls vorhanden) zu füllen. Ich habe so etwas in Python / Pandas gemacht, aber meine Daten sind zu groß für Pandas (auf einem kleinen Cluster) und ich ...
Wie wird PySpark DataFrame gehasht, um einen Float zurückzugeben?
Sagen wir, ich habe Funken dataframe +--------+-----+ | letter|count| +--------+-----+ | a| 2| | b| 2| | c| 1| +--------+-----+Dann wollte ich meinen finden. So tat ic df = df.groupBy().mean('letter') welche einen Datenrahmen ...
Config-Datei zum Definieren der JSON-Schemastruktur in PySpark
Ich habe eine PySpark-Anwendung erstellt, die die JSON-Datei in einem Datenrahmen über ein definiertes Schema liest. Codebeispiel unten schema = StructType([ StructField("domain", StringType(), True), StructField("timestamp", LongType(), True), ...