Suchergebnisse für Anfrage "apache-spark"

4 die antwort

Spark nicht serialisierbare Ausnahme beim Parsen von JSON mit json4s

Ich habe ein Problem mit dem Versuch, Json in meinem Spark-Job zu analysieren. Ich benutzespark 1.1.0, json4s, und dieCassandra Spark Connector. Die ausgelöste Ausnahme ist: java.io.NotSerializableException: ...

2 die antwort

Jobs können nicht an Spark-Cluster gesendet werden (Cluster-Modus)

Spark Version 1.3.0 Fehler beim Senden von Jobs an den Spark-Cluster im Cluster-Modus ./spark-submit --class org.apache.spark.examples.streaming.JavaDirectKafkaWordCount --deploy-mode cluster wordcount-0.1.jar ...

12 die antwort

Wie lösche ich Spalten in Pyspark DataFrame

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: ...

TOP-Veröffentlichungen

4 die antwort

Wie setze und erhalte ich statische Variablen von spark?

Ich habe eine Klasse wie diese: public class Test { private static String name; public static String getName() { return name; } public static void setName(String name) { Test.name = name; } public static void print() { System.out.println(name); ...

18 die antwort

So überprüfen Sie die Spark-Version

wie erfahre ich, welche Version von spark in CentOS installiert wurde? Das aktuelle System hat cdh5.1.0 installiert.

2 die antwort

Was ist der bevorzugte Weg, um SQL-Injections in Spark-SQL (auf Hive) zu vermeiden

Nehme ein SchemaRDD anrdd mit einer registrierten Tabellecustomer. Sie möchten Datensätze anhand einer Benutzereingabe herausfiltern. Eine Idee, wie Sie dies tun können, ist die folgende: rdd.sqlContext.sql(s"SELECT * FROM customer WHERE ...

6 die antwort

Spark: Subtrahiere zwei DataFrames

In Spark-Version 1.2.0 könnte mansubtract mit 2SchemRDDs, um nur den Inhalt des ersten zu erhalten val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)onlyNewData enthält die Zeilen intodaySchemRDD das gibt es nicht ...

4 die antwort

Apache Drill vs Spark

Ich habe Erfahrung mit Apache Spark und Spark-SQL. Kürzlich habe ich ein Apache Drill Projekt gefunden. Könnten Sie mich beschreiben, was sind die wichtigsten Vorteile / Unterschiede zwischen ihnen? Ich habe schon gelesenFast Hadoop Analytics ...

4 die antwort

Spark Nach Schlüssel sortieren und dann nach gruppieren, um iterabel bestellt zu werden?

Ich habe ein Paar RDD(K, V) mit dem Schlüssel mit einemtime und einID. Ich möchte ein Pair RDD der Form @ bekomm(K, Iterable<V>) wo die Schlüssel nach ID gruppiert sind und das Iterable nach Zeit geordnet ist. Ich benutze ...

12 die antwort

Apache Spark: JDBC-Verbindung funktioniert nicht

Ich habe diese Frage bereits gestellt, aber keine Antwort erhalten Nicht in der Lage, mit jdbc in der Pyspark-Shell eine Verbindung zu Postgres ...