Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Wie kann ich den ReductionByKey-Teil meiner Spark-App verbessern?

Ich habe 64 Zündkerne. In meinem Cassandra-Cluster befinden sich über 80 Millionen Datenzeilen mit einer Größe von 4,2 GB. Ich brauche jetzt 82 Sekunden, um diese Daten zu verarbeiten. Ich möchte, dass dies auf 8 Sekunden reduziert wird. ...

4 die antwort

Verwenden von Futures innerhalb von Spark

Ein Spark-Job erstellt einen Remote-Webdienst für jedes Element in einer RDD. Eine einfache Implementierung könnte ungefähr so aussehen: def webServiceCall(url: String) = scala.io.Source.fromURL(url).mkString rdd2 = rdd1.map(x => ...

6 die antwort

Spark: Wie erhalte ich die Anzahl der geschriebenen Zeilen?

Ich frage mich, ob es eine Möglichkeit gibt, die Anzahl der von einem Spark-Speichervorgang geschriebenen Zeilen zu ermitteln. Ich weiß, dass es ausreicht, vor dem Schreiben eine Zählung des RDD durchzuführen, aber ich möchte wissen, ob es eine ...

TOP-Veröffentlichungen

2 die antwort

Update-Abfrage in Spark SQL

Ich frage mich, ob ich die Update-Abfrage in sparksql wie folgt verwenden kann: sqlContext.sql("update users set name = '*' where name is null")Ich habe den Fehler erhalten: org.apache.spark.sql.AnalysisException: Unsupported language features ...

2 die antwort

Wann wird die Spark DataFrame / Dataset-API verwendet und wann wird RDD verwendet?

as @Spark SQL DataFrame / Dataset-Ausführungsmodul verfügt über mehrere äußerst effiziente Zeit- und Raumoptimierungen (z. B. InternalRow und expression codeGen). Vielen Dokumentationen zufolge scheint es für die meisten verteilten Algorithmen ...

4 die antwort

Erstellung des Spark-Clients fehlgeschlagen: Hive on Spark-Ausnahme

Ich habe meine Hive Execution Engine auf SPARK geändert. Wenn ich eine DML / DDL durchführe, erhalte ich die folgende Ausnahme. hive> select count(*) from tablename; Query ID = jibi_john_20160602153012_6ec1da36-dcb3-4f2f-a855-3b68be118b36 ...

6 die antwort

Umwandlung des Pandas-Datenrahmens in einen Spark-Datenrahmenfehler

Ich versuche Pandas DF in Spark One umzuwandeln. DF ...

4 die antwort

Apache spark Hive, ausführbares JAR mit Maven-Schatten

Ich erstelle eine Apache-Spark-Anwendung mit Apache Spark Hive. Bisher war alles in Ordnung - ich habe Tests und die gesamte Anwendung in Intellij IDEA und alle Tests zusammen mit maven ausgeführt. Jetzt möchte ich die gesamte Anwendung von ...

2 die antwort

Pivot String-Spalte in Pyspark Dataframe

Ich habe einen einfachen Datenrahmen wie diesen: rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), (1,"B", 3213,"201601", "PORT"), (2,"C", ...

4 die antwort

Verständnis Funken physischen Plan

Ich versuche, physikalische Pläne für Funken zu verstehen, aber ich verstehe einige Teile nicht, weil sie sich von herkömmlichen RDBMS zu unterscheiden scheinen. In diesem folgenden Plan handelt es sich beispielsweise um einen Plan für eine ...