Suchergebnisse für Anfrage "apache-spark-sql"

2 die antwort

Wie filtere ich basierend auf dem Array-Wert in PySpark?

Mein Schema: |-- Canonical_URL: string (nullable = true) |-- Certifications: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- Certification_Authority: string (nullable = true) | | |-- End: string (nullable = true) | | ...

12 die antwort

Histogramm mit Spark-DataFrame-Spalte erstellen

Ich versuche, ein Histogramm mit einer Spalte aus einem Datenrahmen zu erstellen, der wie folgt aussieht: DataFrame[C0: int, C1: int, ...]Wenn ich ein Histogramm mit der Spalte C1 erstellen würde, was soll ich tun? inige Dinge, die ich ...

4 die antwort

Apache Spark Exception im Thread "main" java.lang.NoClassDefFoundError: scala / collection / GenTraversableOnce $ class

Scala-Version: 2.11.7 (musste die Scala-Version aktualisieren, damit case clasess mehr als 22 Parameter akzeptieren konnte.) Spark-Version: 1.6.1 PFB pom.xml Getting unter Fehler beim Versuch, Funken auf intellij IDE einzurichten, 16/03/16 ...

TOP-Veröffentlichungen

2 die antwort

Umwandlung eines Strings in einen doppelten Datenrahmen

Ich habe einen Datenrahmen mit @ erstelconcat was einen String erzeugt. import sqlContext.implicits._ val df = sc.parallelize(Seq((1.0, 2.0), (3.0, 4.0))).toDF("k", "v") df.registerTempTable("df") val dfConcat = df.select(concat($"k", lit(","), ...

4 die antwort

Hinzufügen einer Spalte zu PySpark DataFrame, je nachdem, ob sich der Spaltenwert in einer anderen Spalte befindet

Ich habe einen PySpark DataFrame mit der von @ angegebenen Struktu [('u1', 1, [1 ,2, 3]), ('u1', 4, [1, 2, 3])].toDF('user', 'item', 'fav_items') Ich muss eine weitere Spalte mit 1 oder 0 hinzufügen, je nachdem, ob sich 'item' in 'fav_items' ...

6 die antwort

Spark Row zu JSON

Ich möchte einen JSON aus einem Spark-v.1.6-Datenrahmen (unter Verwendung von Scala) erstellen. Ich weiß, dass es die einfache Lösung gibt, @ zu tdf.toJSON. Allerdings sieht mein Problem etwas anders aus. Betrachten Sie beispielsweise einen ...

4 die antwort

Aufteilen komplexer Zeilen von Datenrahmen in einfache Zeilen in Pyspark

Ich habe diesen Code: from pyspark import SparkContext from pyspark.sql import SQLContext, Row sc = SparkContext() sqlContext = SQLContext(sc) documents = sqlContext.createDataFrame([ Row(id=1, title=[Row(value=u'cars', max_dist=1000)]), ...

4 die antwort

Ausgabedateinamenpräfix für DataFrame.write () ändern

Output-Dateien, die mit der Spark-SQL-Methode DataFrame.write () generiert wurden, beginnen mit dem Basisnamen-Präfix "part". z.B DataFrame sample_07 = hiveContext.table("sample_07"); sample_07.write().parquet("sample_07_parquet");Ergebnisse ...

10 die antwort

Wie erkenne ich, ob ein Spark-DataFrame eine Spalte @ ha

Wenn ich ein @ erstelDataFrameie kann ich in einer JSON-Datei in Spark SQL feststellen, ob eine bestimmte Spalte vorhanden ist, bevor ich @ aufruf.select Beispiel JSON-Schema: { "a": { "b": 1, "c": 2 } }Das ist, was ich tun ...

6 die antwort

Pyspark: Vorwärtsfüllung mit letzter Beobachtung für einen DataFrame

Mit Spark 1.5.1, Ich habe versucht, füllen @ weiterzuleitnull values mit der letzten bekannten Beobachtung füreine Spalte meines DataFrame. Es ist möglich, mit einem Nullwert zu beginnen, und in diesem Fall würde ich diesen Nullwert mit der ...