Suchergebnisse für Anfrage "apache-spark"

6 die antwort

Ist es möglich, json4s 3.2.11 mit Spark 1.3.0 zu verwenden?

Spark hat eine Abhängigkeit von json4s 3.2.10, aber diese Version hat mehrere Fehler und ich muss 3.2.11 verwenden. Ich habe json4s-native 3.2.11-Abhängigkeit zu build.sbt hinzugefügt und alles gut kompiliert. Aber wenn ich meine JAR per Funk ...

4 die antwort

Mind geblasen: RDD.zip () Methode

Ich habe gerade entdeckt [https://stackoverflow.com/q/29265616/850781] das RDD.zip() [http://spark.apache.org/docs/latest/api/java/org/apache/spark/rdd/RDD.html#zip%28org.apache.spark.rdd.RDD,%20scala.reflect.ClassTag%29] Methode und ich kann ...

4 die antwort

Wie gruppiere ich nach mehreren Schlüsseln in spark?

Ich habe eine Reihe von Tupeln, die in Form von zusammengesetzten Schlüsseln und Werten vorliegen. Beispielsweise tfile.collect() = [(('id1','pd1','t1'),5.0), (('id2','pd2','t2'),6.0), (('id1','pd1','t2'),7.5), (('id1','pd1','t3'),8.1) ]Ich ...

TOP-Veröffentlichungen

32 die antwort

Wie ändere ich die Spaltentypen im DataFrame von Spark SQL?

Angenommen, ich mache etwas wie: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string ...

20 die antwort

So konvertieren Sie ein rdd-Objekt in einen Datenrahmen in spark

Wie kann ich eine RDD konvertieren org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) zu einem Datenrahmenorg.apache.spark.sql.DataFrame. Ich habe einen Datenrahmen mit @ nach rdd konvertie.rdd. Nach der Verarbeitung möchte ich es wieder in ...

2 die antwort

Wie definiere ich eine globale Scala-Variable in Spark, die von allen Workern gemeinsam genutzt wird?

as kann ich tun, um im Spark-Programm eine Variable wie eine unveränderliche Map zu definieren, auf die alle Worker-Programme synchron zugreifen? Soll ich ein Scala-Objekt definieren? Nicht nur unveränderliche Karte, was ist, wenn ich eine ...

2 die antwort

Hadoops HDFS mit Spark

Ich bin neu im Cluster-Computing und versuche, in Spark einen Cluster mit mindestens zwei Knoten einzurichten. Was mich immer noch ein bisschen verwirrt: Muss ich zuerst eine vollständige Hadoop-Installation einrichten oder wird Spark mit einer ...

2 die antwort

Wie wird ein konstanter Wert in der UDF von Spark SQL (DataFrame) verwendet?

Ich habe einen Datenrahmen, der @ enthätimestamp. Um nach Zeit (Minute, Stunde oder Tag) zu aggregieren, habe ich Folgendes versucht: val toSegment = udf((timestamp: String) => { val asLong = timestamp.toLong asLong - asLong % 3600000 // period ...

2 die antwort

pyspark: Abhängigkeit vom Schiffsglas mit spark-submit

Ich habe ein Pyspark-Skript geschrieben, das zwei JSON-Dateien liest,coGroup ihnen und sendet das Ergebnis an einen Elasticsearch-Cluster; Alles funktioniert (meistens) wie erwartet, wenn ich es lokal ausführe. Ich habe das ...

10 die antwort

TaskSchedulerImpl: Der ursprüngliche Job hat keine Ressourcen akzeptiert.

Hier ist, was ich versuche zu tun. Ich habe zwei Knoten des DataStax-Unternehmensclusters erstellt. Darüber habe ich ein Java-Programm erstellt, um die Anzahl einer Tabelle (Cassandra-Datenbanktabelle) abzurufen. Dieses Programm wurde in ...