Suchergebnisse für Anfrage "apache-spark-sql"
Updating einer Datenrahmenspalte in spark
Betrachtet man die neue Spark-Dataframe-API, ist unklar, ob es möglich ist, Dataframe-Spalten zu ändern. ie würde ich vorgehen, um einen Wert in der Zeile zu änderx Säuley eines Datenrahmens? Impandas das wäredf.ix[x,y] = new_value Edit: Wenn ...
So konvertieren Sie ein rdd-Objekt in einen Datenrahmen in spark
Wie kann ich eine RDD konvertieren org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) zu einem Datenrahmenorg.apache.spark.sql.DataFrame. Ich habe einen Datenrahmen mit @ nach rdd konvertie.rdd. Nach der Verarbeitung möchte ich es wieder in ...
Wie ändere ich die Spaltentypen im DataFrame von Spark SQL?
Angenommen, ich mache etwas wie: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string ...
Wie wird ein konstanter Wert in der UDF von Spark SQL (DataFrame) verwendet?
Ich habe einen Datenrahmen, der @ enthätimestamp. Um nach Zeit (Minute, Stunde oder Tag) zu aggregieren, habe ich Folgendes versucht: val toSegment = udf((timestamp: String) => { val asLong = timestamp.toLong asLong - asLong % 3600000 // period ...
Wie lösche ich Spalten in Pyspark DataFrame
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: ...
Was ist der bevorzugte Weg, um SQL-Injections in Spark-SQL (auf Hive) zu vermeiden
Nehme ein SchemaRDD anrdd mit einer registrierten Tabellecustomer. Sie möchten Datensätze anhand einer Benutzereingabe herausfiltern. Eine Idee, wie Sie dies tun können, ist die folgende: rdd.sqlContext.sql(s"SELECT * FROM customer WHERE ...
Apache Spark: JDBC-Verbindung funktioniert nicht
Ich habe diese Frage bereits gestellt, aber keine Antwort erhalten Nicht in der Lage, mit jdbc in der Pyspark-Shell eine Verbindung zu Postgres ...
java.sql.SQLException: Beim Laden von DataFrame in Spark SQL wurde kein geeigneter Treiber gefunden
Ich habe ein sehr seltsames Problem, wenn ich versuche, JDBC DataFrame in Spark SQL zu laden. Ich habe verschiedene Spark-Cluster ausprobiert - YARN, Standalone-Cluster und Pseudo-Distributed-Modus auf meinem Laptop. Es ist auf Spark 1.3.0 und ...
Wie wird der DataFrame gedreht?
Ich fange an, Spark DataFrames zu verwenden, und ich muss in der Lage sein, die Daten zu schwenken, um mehrere Spalten aus einer Spalte mit mehreren Zeilen zu erstellen. In Scalding ist dafür eine integrierte Funktionalität vorhanden, und ich ...
Umformen / Schwenken von Daten in Spark RDD und / oder Spark DataFrames
Ich habe einige Daten im folgenden Format (entweder RDD oder Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ...