Suchergebnisse für Anfrage "apache-spark"
Spark nicht serialisierbare Ausnahme beim Parsen von JSON mit json4s
Ich habe ein Problem mit dem Versuch, Json in meinem Spark-Job zu analysieren. Ich benutzespark 1.1.0, json4s, und dieCassandra Spark Connector. Die ausgelöste Ausnahme ist: java.io.NotSerializableException: ...
Jobs können nicht an Spark-Cluster gesendet werden (Cluster-Modus)
Spark Version 1.3.0 Fehler beim Senden von Jobs an den Spark-Cluster im Cluster-Modus ./spark-submit --class org.apache.spark.examples.streaming.JavaDirectKafkaWordCount --deploy-mode cluster wordcount-0.1.jar ...
Wie lösche ich Spalten in Pyspark DataFrame
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: ...
Wie setze und erhalte ich statische Variablen von spark?
Ich habe eine Klasse wie diese: public class Test { private static String name; public static String getName() { return name; } public static void setName(String name) { Test.name = name; } public static void print() { System.out.println(name); ...
So überprüfen Sie die Spark-Version
wie erfahre ich, welche Version von spark in CentOS installiert wurde? Das aktuelle System hat cdh5.1.0 installiert.
Was ist der bevorzugte Weg, um SQL-Injections in Spark-SQL (auf Hive) zu vermeiden
Nehme ein SchemaRDD anrdd mit einer registrierten Tabellecustomer. Sie möchten Datensätze anhand einer Benutzereingabe herausfiltern. Eine Idee, wie Sie dies tun können, ist die folgende: rdd.sqlContext.sql(s"SELECT * FROM customer WHERE ...
Spark: Subtrahiere zwei DataFrames
In Spark-Version 1.2.0 könnte mansubtract mit 2SchemRDDs, um nur den Inhalt des ersten zu erhalten val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)onlyNewData enthält die Zeilen intodaySchemRDD das gibt es nicht ...
Apache Drill vs Spark
Ich habe Erfahrung mit Apache Spark und Spark-SQL. Kürzlich habe ich ein Apache Drill Projekt gefunden. Könnten Sie mich beschreiben, was sind die wichtigsten Vorteile / Unterschiede zwischen ihnen? Ich habe schon gelesenFast Hadoop Analytics ...
Spark Nach Schlüssel sortieren und dann nach gruppieren, um iterabel bestellt zu werden?
Ich habe ein Paar RDD(K, V) mit dem Schlüssel mit einemtime und einID. Ich möchte ein Pair RDD der Form @ bekomm(K, Iterable<V>) wo die Schlüssel nach ID gruppiert sind und das Iterable nach Zeit geordnet ist. Ich benutze ...
Apache Spark: JDBC-Verbindung funktioniert nicht
Ich habe diese Frage bereits gestellt, aber keine Antwort erhalten Nicht in der Lage, mit jdbc in der Pyspark-Shell eine Verbindung zu Postgres ...