Suchergebnisse für Anfrage "apache-spark-sql"

4 die antwort

Kann sqlContext.implicits._ nicht ohne Fehler über Jupyter importieren

Wenn ich versuche, das @ zu verwendimport sqlContext.implicits._ Auf meinem Jupyter-Notizbuch wird folgende Fehlermeldung angezeigt: Name: Compile Error Message: <console>:25: error: stable identifier required, but ...

4 die antwort

Wie berechnet man das Perzentil der Spalte in einem DataFrame im Spark?

Ich versuche, das Perzentil einer Spalte in einem DataFrame zu berechnen. Ich kann keine Percentile_approx-Funktion in Spark-Aggregationsfunktionen finden. Für z.B. in Hive haben wir percentile_approx und wir können es auf folgende Weise ...

4 die antwort

Spark unionAlle mehreren Datenrahmen

Für eine Reihe von Datenrahmen val df1 = sc.parallelize(1 to 4).map(i => (i,i*10)).toDF("id","x") val df2 = sc.parallelize(1 to 4).map(i => (i,i*100)).toDF("id","y") val df3 = sc.parallelize(1 to 4).map(i => (i,i*1000)).toDF("id","z")Union alle ...

TOP-Veröffentlichungen

8 die antwort

Rename geschwenkte und aggregierte Spalte in PySpark Dataframe

Mit einem Datenrahmen wie folgt: from pyspark.sql.functions import avg, first rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), (1,"B", ...

4 die antwort

Was ist eine optimierte Methode zum Verknüpfen großer Tabellen in Spark SQL

Ich muss Tabellen mit Spark SQL oder Dataframe API verbinden. Sie müssen wissen, wie dies optimiert werden kann. Szenario ist: Alle Daten sind in der Struktur im ORC-Format (Basisdatenrahmen- und Referenzdateien) vorhanden.Ich muss eine aus ...

6 die antwort

Was bedeuten die Spalten "rawPrediction" und "Probability" von DataFrame in Spark MLlib?

Nachdem ich ein LogisticRegressionModel trainiert habe, habe ich die Testdaten-DF damit transformiert und die Vorhersage-DF erhalten. Und wenn ich dann prediction.show () aufrufe, lauten die Namen der Ausgabespalten:[label | features | ...

2 die antwort

Wie führe ich mithilfe von PySpark parallel unabhängige Transformationen durch?

Ich versuche, mit PySpark 2 Funktionen auszuführen, die vollständig unabhängige Transformationen auf einer einzelnen RDD gleichzeitig ausführen. Was sind einige Methoden, um dasselbe zu tun? def doXTransforms(sampleRDD): (X transforms) def ...

10 die antwort

Wie erstelle ich einen DataFrame aus der Liste der Iterables von Scala?

Ich habe den folgenden Scala-Wert: val values: List[Iterable[Any]] = Traces().evaluate(features).toListund ich möchte es in einen DataFrame konvertieren. Wenn ich Folgendes versuche: sqlContext.createDataFrame(values)Ich habe diesen Fehler ...

8 die antwort

Pyspark-String in Datumsformat konvertieren

Ich habe einen Datums-Pyspark-Datenrahmen mit einer Zeichenfolgenspalte im FormatMM-dd-yyyy und ich versuche, dies in eine Datumsspalte umzuwandeln. Ich habe es versucht df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() und ich ...

4 die antwort

get value out of dataframe

n Scala kann ichget(#) odergetAs[Type](#), um Werte aus einem Datenrahmen abzurufen. Wie soll ich das in @ machpyspark? Ich habe einen DataFrame mit zwei Spalten:item(string) undsalesNum(integers). Ich mache eingroupby undmean, um einen ...