Suchergebnisse für Anfrage "pyspark"

4 die antwort

spark Skalierbarkeit: Was mache ich falsch?

Ich verarbeite Daten mit Funken und es funktioniert mit Daten im Wert von einem Tag (40G), aber es schlägt fehl mit OOM auf eine Woche im Wert von Daten: import pyspark import datetime import operator sc = pyspark.SparkContext() sqc ...

8 die antwort

Updating einer Datenrahmenspalte in spark

Betrachtet man die neue Spark-Dataframe-API, ist unklar, ob es möglich ist, Dataframe-Spalten zu ändern. ie würde ich vorgehen, um einen Wert in der Zeile zu änderx Säuley eines Datenrahmens? Impandas das wäredf.ix[x,y] = new_value Edit: Wenn ...

4 die antwort

Wie gruppiere ich nach mehreren Schlüsseln in spark?

Ich habe eine Reihe von Tupeln, die in Form von zusammengesetzten Schlüsseln und Werten vorliegen. Beispielsweise tfile.collect() = [(('id1','pd1','t1'),5.0), (('id2','pd2','t2'),6.0), (('id1','pd1','t2'),7.5), (('id1','pd1','t3'),8.1) ]Ich ...

TOP-Veröffentlichungen

2 die antwort

pyspark: Abhängigkeit vom Schiffsglas mit spark-submit

Ich habe ein Pyspark-Skript geschrieben, das zwei JSON-Dateien liest,coGroup ihnen und sendet das Ergebnis an einen Elasticsearch-Cluster; Alles funktioniert (meistens) wie erwartet, wenn ich es lokal ausführe. Ich habe das ...

2 die antwort

Spezifiziere Optionen für den von pyspark @ gestarteten J

Wie / wo werden die JVM-Optionen verwendet, die vom Pyspark-Skript beim Starten der JVM verwendet werden, mit der die Verbindung hergestellt wird? Ich bin speziell daran interessiert, JVM-Debugging-Optionen anzugeben, ...

4 die antwort

Spark Kill Running Application

Ich habe eine laufende Spark-Anwendung, in der alle Kerne belegt sind, auf denen meinen anderen Anwendungen keine Ressourcen zugewiesen werden. Ich habe schnell nachgeforscht und Leute haben vorgeschlagen, YARN kill oder / bin / spark-class zu ...

12 die antwort

Wie lösche ich Spalten in Pyspark DataFrame

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: ...

2 die antwort

submit .py-Skript für Spark ohne Hadoop-Installation

Ich habe das folgende einfache Wordcount-Python-Skript. from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("My App") sc = SparkContext(conf = conf) from operator import add ...

2 die antwort

Spark MLlib - trainImplizite Warnung

Ich sehe diese Warnungen immer wieder, wenn ich @ benuttrainImplicit: WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB). The maximum recommended task size is 100 KB.Und dann beginnt die Taskgröße zuzunehmen. Ich habe ...

6 die antwort

Pyspark py4j PickleException: "erwartete keine Argumente für die Erstellung von ClassDict"

Diese Frage richtet sich an Personen, die mit py4j vertraut sind - und kann zur Behebung eines Beizfehlers beitragen. Ich versuche, dem Pyspark PythonMLLibAPI eine Methode hinzuzufügen, die eine RDD eines namedtuple akzeptiert, etwas Arbeit ...