Suchergebnisse für Anfrage "apache-spark"
Default Partitioning Scheme in Spark
Wenn ich den folgenden Befehl ausführe: scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist() rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at <console>:22 scala> ...
Wie erstelle ich einen DataFrame aus Zeilen unter Beibehaltung des vorhandenen Schemas?
Wenn ich map anrufe odermapPartition und meine Funktion empfängt Zeilen von PySpark. Wie kann auf natürliche Weise entweder ein lokaler PySpark- oder ein Pandas-DataFrame erstellt werden? Etwas, das die Zeilen kombiniert und das Schema ...
Pyspark-Import .py-Datei funktioniert nicht
Mein Ziel ist es, eine benutzerdefinierte .py-Datei in meine Spark-Anwendung zu importieren und einige der in dieser Datei enthaltenen Funktionen aufzurufen. Hier ist, was ich versucht habe: Ich habe eine Testdatei namens Test.py was wie folgt ...
Funktion auf jede Zeile von Spark DataFrame @ anwend
Ich bin auf Spark 1.3. Ich möchte auf jede Zeile eines Datenrahmens eine Funktion anwenden. Diese Funktion durchsucht jede Spalte der Zeile und gibt eine Liste der Hashes zurück. dataframe.map(row => row.toSeq.map(col => col.hashCode))Ich ...
Abstand anpassen Formular von K-means in Apache Spark Python
etzt verwende ich K-means zum Clustering und folgedieses Tutorial [http://spark.apache.org/docs/latest/mllib-clustering.html] und API [https://spark.apache.org/docs/1.0.0/api/python/pyspark.mllib.clustering-module.html] . Aber ich möchte eine ...
Spark __getnewargs__ error
Ich versuche, einen Spark-DataFrame zu bereinigen, indem ich ihn RDD und dann wieder DataFrame zuordne. Hier ist ein Spielzeugbeispiel: def replace_values(row,sub_rules): d = row.asDict() for col,old_val,new_val in sub_rules: if d[col] == ...
Wie berechnet man den Median in spark sqlContext für die Spalte vom Datentyp double
Ich habe die Probentabelle gegeben. Ich möchte den Median aus der Spalte "Wert" für jede Spalte "Quelle" der Gruppe ermitteln. Wobei die Quellenspalte vom Typ String DataType ist und die Wertespalte vom Typ double DataType @ i scala> ...
Warum schlägt Spark im lokalen Modus mit "Broadcast_0_Stück0 von Broadcast_0 konnte nicht abgerufen werden" fehl?
Ich führe dieses Snippet aus, um eine RDD von Punkten zu sortieren, die RDD zu ordnen und die K-nächsten Punkte von einem bestimmten Punkt zu nehmen: def getKNN(sparkContext:SparkContext, k:Int, ...
So messen Sie die Ausführungszeit einer Abfrage in Spark
Ich muss die Ausführungszeit der Abfrage auf Apache Spark (Bluemix) messen. Was ich versucht habe: import time startTimeQuery = time.clock() df = sqlContext.sql(query) df.show() endTimeQuery = time.clock() runTimeQuery = endTimeQuery - ...
Wie konvertiere ich DataFrame nach Dataset in Apache Spark in Java?
Ich kann DataFrame in Scala ganz einfach in Dataset konvertieren: case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.printSchemaAber in der Java-Version kann ich Dataframe nicht in ...