Suchergebnisse für Anfrage "apache-spark"
Ist es möglich, json4s 3.2.11 mit Spark 1.3.0 zu verwenden?
Spark hat eine Abhängigkeit von json4s 3.2.10, aber diese Version hat mehrere Fehler und ich muss 3.2.11 verwenden. Ich habe json4s-native 3.2.11-Abhängigkeit zu build.sbt hinzugefügt und alles gut kompiliert. Aber wenn ich meine JAR per Funk ...
Mind geblasen: RDD.zip () Methode
Ich habe gerade entdeckt [https://stackoverflow.com/q/29265616/850781] das RDD.zip() [http://spark.apache.org/docs/latest/api/java/org/apache/spark/rdd/RDD.html#zip%28org.apache.spark.rdd.RDD,%20scala.reflect.ClassTag%29] Methode und ich kann ...
Wie gruppiere ich nach mehreren Schlüsseln in spark?
Ich habe eine Reihe von Tupeln, die in Form von zusammengesetzten Schlüsseln und Werten vorliegen. Beispielsweise tfile.collect() = [(('id1','pd1','t1'),5.0), (('id2','pd2','t2'),6.0), (('id1','pd1','t2'),7.5), (('id1','pd1','t3'),8.1) ]Ich ...
Wie ändere ich die Spaltentypen im DataFrame von Spark SQL?
Angenommen, ich mache etwas wie: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string ...
So konvertieren Sie ein rdd-Objekt in einen Datenrahmen in spark
Wie kann ich eine RDD konvertieren org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) zu einem Datenrahmenorg.apache.spark.sql.DataFrame. Ich habe einen Datenrahmen mit @ nach rdd konvertie.rdd. Nach der Verarbeitung möchte ich es wieder in ...
Wie definiere ich eine globale Scala-Variable in Spark, die von allen Workern gemeinsam genutzt wird?
as kann ich tun, um im Spark-Programm eine Variable wie eine unveränderliche Map zu definieren, auf die alle Worker-Programme synchron zugreifen? Soll ich ein Scala-Objekt definieren? Nicht nur unveränderliche Karte, was ist, wenn ich eine ...
Hadoops HDFS mit Spark
Ich bin neu im Cluster-Computing und versuche, in Spark einen Cluster mit mindestens zwei Knoten einzurichten. Was mich immer noch ein bisschen verwirrt: Muss ich zuerst eine vollständige Hadoop-Installation einrichten oder wird Spark mit einer ...
Wie wird ein konstanter Wert in der UDF von Spark SQL (DataFrame) verwendet?
Ich habe einen Datenrahmen, der @ enthätimestamp. Um nach Zeit (Minute, Stunde oder Tag) zu aggregieren, habe ich Folgendes versucht: val toSegment = udf((timestamp: String) => { val asLong = timestamp.toLong asLong - asLong % 3600000 // period ...
pyspark: Abhängigkeit vom Schiffsglas mit spark-submit
Ich habe ein Pyspark-Skript geschrieben, das zwei JSON-Dateien liest,coGroup ihnen und sendet das Ergebnis an einen Elasticsearch-Cluster; Alles funktioniert (meistens) wie erwartet, wenn ich es lokal ausführe. Ich habe das ...
TaskSchedulerImpl: Der ursprüngliche Job hat keine Ressourcen akzeptiert.
Hier ist, was ich versuche zu tun. Ich habe zwei Knoten des DataStax-Unternehmensclusters erstellt. Darüber habe ich ein Java-Programm erstellt, um die Anzahl einer Tabelle (Cassandra-Datenbanktabelle) abzurufen. Dieses Programm wurde in ...