Suchergebnisse für Anfrage "apache-spark-sql"

8 die antwort

Updating einer Datenrahmenspalte in spark

Betrachtet man die neue Spark-Dataframe-API, ist unklar, ob es möglich ist, Dataframe-Spalten zu ändern. ie würde ich vorgehen, um einen Wert in der Zeile zu änderx Säuley eines Datenrahmens? Impandas das wäredf.ix[x,y] = new_value Edit: Wenn ...

20 die antwort

So konvertieren Sie ein rdd-Objekt in einen Datenrahmen in spark

Wie kann ich eine RDD konvertieren org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) zu einem Datenrahmenorg.apache.spark.sql.DataFrame. Ich habe einen Datenrahmen mit @ nach rdd konvertie.rdd. Nach der Verarbeitung möchte ich es wieder in ...

32 die antwort

Wie ändere ich die Spaltentypen im DataFrame von Spark SQL?

Angenommen, ich mache etwas wie: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string ...

TOP-Veröffentlichungen

2 die antwort

Wie wird ein konstanter Wert in der UDF von Spark SQL (DataFrame) verwendet?

Ich habe einen Datenrahmen, der @ enthätimestamp. Um nach Zeit (Minute, Stunde oder Tag) zu aggregieren, habe ich Folgendes versucht: val toSegment = udf((timestamp: String) => { val asLong = timestamp.toLong asLong - asLong % 3600000 // period ...

12 die antwort

Wie lösche ich Spalten in Pyspark DataFrame

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: ...

2 die antwort

Was ist der bevorzugte Weg, um SQL-Injections in Spark-SQL (auf Hive) zu vermeiden

Nehme ein SchemaRDD anrdd mit einer registrierten Tabellecustomer. Sie möchten Datensätze anhand einer Benutzereingabe herausfiltern. Eine Idee, wie Sie dies tun können, ist die folgende: rdd.sqlContext.sql(s"SELECT * FROM customer WHERE ...

12 die antwort

Apache Spark: JDBC-Verbindung funktioniert nicht

Ich habe diese Frage bereits gestellt, aber keine Antwort erhalten Nicht in der Lage, mit jdbc in der Pyspark-Shell eine Verbindung zu Postgres ...

8 die antwort

java.sql.SQLException: Beim Laden von DataFrame in Spark SQL wurde kein geeigneter Treiber gefunden

Ich habe ein sehr seltsames Problem, wenn ich versuche, JDBC DataFrame in Spark SQL zu laden. Ich habe verschiedene Spark-Cluster ausprobiert - YARN, Standalone-Cluster und Pseudo-Distributed-Modus auf meinem Laptop. Es ist auf Spark 1.3.0 und ...

12 die antwort

Wie wird der DataFrame gedreht?

Ich fange an, Spark DataFrames zu verwenden, und ich muss in der Lage sein, die Daten zu schwenken, um mehrere Spalten aus einer Spalte mit mehreren Zeilen zu erstellen. In Scalding ist dafür eine integrierte Funktionalität vorhanden, und ich ...

12 die antwort

Umformen / Schwenken von Daten in Spark RDD und / oder Spark DataFrames

Ich habe einige Daten im folgenden Format (entweder RDD oder Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ...