Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Default Partitioning Scheme in Spark

Wenn ich den folgenden Befehl ausführe: scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist() rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at <console>:22 scala> ...

8 die antwort

Wie erstelle ich einen DataFrame aus Zeilen unter Beibehaltung des vorhandenen Schemas?

Wenn ich map anrufe odermapPartition und meine Funktion empfängt Zeilen von PySpark. Wie kann auf natürliche Weise entweder ein lokaler PySpark- oder ein Pandas-DataFrame erstellt werden? Etwas, das die Zeilen kombiniert und das Schema ...

2 die antwort

Pyspark-Import .py-Datei funktioniert nicht

Mein Ziel ist es, eine benutzerdefinierte .py-Datei in meine Spark-Anwendung zu importieren und einige der in dieser Datei enthaltenen Funktionen aufzurufen. Hier ist, was ich versucht habe: Ich habe eine Testdatei namens Test.py was wie folgt ...

TOP-Veröffentlichungen

2 die antwort

Funktion auf jede Zeile von Spark DataFrame @ anwend

Ich bin auf Spark 1.3. Ich möchte auf jede Zeile eines Datenrahmens eine Funktion anwenden. Diese Funktion durchsucht jede Spalte der Zeile und gibt eine Liste der Hashes zurück. dataframe.map(row => row.toSeq.map(col => col.hashCode))Ich ...

2 die antwort

Abstand anpassen Formular von K-means in Apache Spark Python

etzt verwende ich K-means zum Clustering und folgedieses Tutorial [http://spark.apache.org/docs/latest/mllib-clustering.html] und API [https://spark.apache.org/docs/1.0.0/api/python/pyspark.mllib.clustering-module.html] . Aber ich möchte eine ...

2 die antwort

Spark __getnewargs__ error

Ich versuche, einen Spark-DataFrame zu bereinigen, indem ich ihn RDD und dann wieder DataFrame zuordne. Hier ist ein Spielzeugbeispiel: def replace_values(row,sub_rules): d = row.asDict() for col,old_val,new_val in sub_rules: if d[col] == ...

4 die antwort

Wie berechnet man den Median in spark sqlContext für die Spalte vom Datentyp double

Ich habe die Probentabelle gegeben. Ich möchte den Median aus der Spalte "Wert" für jede Spalte "Quelle" der Gruppe ermitteln. Wobei die Quellenspalte vom Typ String DataType ist und die Wertespalte vom Typ double DataType @ i scala> ...

10 die antwort

Warum schlägt Spark im lokalen Modus mit "Broadcast_0_Stück0 von Broadcast_0 konnte nicht abgerufen werden" fehl?

Ich führe dieses Snippet aus, um eine RDD von Punkten zu sortieren, die RDD zu ordnen und die K-nächsten Punkte von einem bestimmten Punkt zu nehmen: def getKNN(sparkContext:SparkContext, k:Int, ...

8 die antwort

So messen Sie die Ausführungszeit einer Abfrage in Spark

Ich muss die Ausführungszeit der Abfrage auf Apache Spark (Bluemix) messen. Was ich versucht habe: import time startTimeQuery = time.clock() df = sqlContext.sql(query) df.show() endTimeQuery = time.clock() runTimeQuery = endTimeQuery - ...

4 die antwort

Wie konvertiere ich DataFrame nach Dataset in Apache Spark in Java?

Ich kann DataFrame in Scala ganz einfach in Dataset konvertieren: case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.printSchemaAber in der Java-Version kann ich Dataframe nicht in ...