Suchergebnisse für Anfrage "apache-spark"
Wie kann ich den ReductionByKey-Teil meiner Spark-App verbessern?
Ich habe 64 Zündkerne. In meinem Cassandra-Cluster befinden sich über 80 Millionen Datenzeilen mit einer Größe von 4,2 GB. Ich brauche jetzt 82 Sekunden, um diese Daten zu verarbeiten. Ich möchte, dass dies auf 8 Sekunden reduziert wird. ...
Verwenden von Futures innerhalb von Spark
Ein Spark-Job erstellt einen Remote-Webdienst für jedes Element in einer RDD. Eine einfache Implementierung könnte ungefähr so aussehen: def webServiceCall(url: String) = scala.io.Source.fromURL(url).mkString rdd2 = rdd1.map(x => ...
Spark: Wie erhalte ich die Anzahl der geschriebenen Zeilen?
Ich frage mich, ob es eine Möglichkeit gibt, die Anzahl der von einem Spark-Speichervorgang geschriebenen Zeilen zu ermitteln. Ich weiß, dass es ausreicht, vor dem Schreiben eine Zählung des RDD durchzuführen, aber ich möchte wissen, ob es eine ...
Update-Abfrage in Spark SQL
Ich frage mich, ob ich die Update-Abfrage in sparksql wie folgt verwenden kann: sqlContext.sql("update users set name = '*' where name is null")Ich habe den Fehler erhalten: org.apache.spark.sql.AnalysisException: Unsupported language features ...
Wann wird die Spark DataFrame / Dataset-API verwendet und wann wird RDD verwendet?
as @Spark SQL DataFrame / Dataset-Ausführungsmodul verfügt über mehrere äußerst effiziente Zeit- und Raumoptimierungen (z. B. InternalRow und expression codeGen). Vielen Dokumentationen zufolge scheint es für die meisten verteilten Algorithmen ...
Erstellung des Spark-Clients fehlgeschlagen: Hive on Spark-Ausnahme
Ich habe meine Hive Execution Engine auf SPARK geändert. Wenn ich eine DML / DDL durchführe, erhalte ich die folgende Ausnahme. hive> select count(*) from tablename; Query ID = jibi_john_20160602153012_6ec1da36-dcb3-4f2f-a855-3b68be118b36 ...
Umwandlung des Pandas-Datenrahmens in einen Spark-Datenrahmenfehler
Ich versuche Pandas DF in Spark One umzuwandeln. DF ...
Apache spark Hive, ausführbares JAR mit Maven-Schatten
Ich erstelle eine Apache-Spark-Anwendung mit Apache Spark Hive. Bisher war alles in Ordnung - ich habe Tests und die gesamte Anwendung in Intellij IDEA und alle Tests zusammen mit maven ausgeführt. Jetzt möchte ich die gesamte Anwendung von ...
Pivot String-Spalte in Pyspark Dataframe
Ich habe einen einfachen Datenrahmen wie diesen: rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), (1,"B", 3213,"201601", "PORT"), (2,"C", ...
Verständnis Funken physischen Plan
Ich versuche, physikalische Pläne für Funken zu verstehen, aber ich verstehe einige Teile nicht, weil sie sich von herkömmlichen RDBMS zu unterscheiden scheinen. In diesem folgenden Plan handelt es sich beispielsweise um einen Plan für eine ...