Suchergebnisse für Anfrage "apache-spark-sql"

Wenn ich versuche, das @ zu verwendimport sqlContext.implicits._ Auf meinem Jupyter-Notizbuch wird folgende Fehlermeldung angezeigt: Name: Compile Error Message: <console>:25: error: stable identifier required, but ...

spark-dataframe apache-spark scala

4 die antwort

Wie berechnet man das Perzentil der Spalte in einem DataFrame im Spark?

Ich versuche, das Perzentil einer Spalte in einem DataFrame zu berechnen. Ich kann keine Percentile_approx-Funktion in Spark-Aggregationsfunktionen finden. Für z.B. in Hive haben wir percentile_approx und wir können es auf folgende Weise ...

scala apache-spark

4 die antwort

Spark unionAlle mehreren Datenrahmen

Für eine Reihe von Datenrahmen val df1 = sc.parallelize(1 to 4).map(i => (i,i*10)).toDF("id","x") val df2 = sc.parallelize(1 to 4).map(i => (i,i*100)).toDF("id","y") val df3 = sc.parallelize(1 to 4).map(i => (i,i*1000)).toDF("id","z")Union alle ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

pyspark python apache-spark

8 die antwort

Rename geschwenkte und aggregierte Spalte in PySpark Dataframe

Mit einem Datenrahmen wie folgt: from pyspark.sql.functions import avg, first rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), (1,"B", ...

apache-spark

4 die antwort

Was ist eine optimierte Methode zum Verknüpfen großer Tabellen in Spark SQL

Ich muss Tabellen mit Spark SQL oder Dataframe API verbinden. Sie müssen wissen, wie dies optimiert werden kann. Szenario ist: Alle Daten sind in der Struktur im ORC-Format (Basisdatenrahmen- und Referenzdateien) vorhanden.Ich muss eine aus ...

apache-spark-ml logistic-regression

6 die antwort

Was bedeuten die Spalten "rawPrediction" und "Probability" von DataFrame in Spark MLlib?

Nachdem ich ein LogisticRegressionModel trainiert habe, habe ich die Testdaten-DF damit transformiert und die Vorhersage-DF erhalten. Und wenn ich dann prediction.show () aufrufe, lauten die Namen der Ausgabespalten:[label | features | ...

apache-spark pyspark python-multiprocessing python-2.7

2 die antwort

Wie führe ich mithilfe von PySpark parallel unabhängige Transformationen durch?

Ich versuche, mit PySpark 2 Funktionen auszuführen, die vollständig unabhängige Transformationen auf einer einzelnen RDD gleichzeitig ausführen. Was sind einige Methoden, um dasselbe zu tun? def doXTransforms(sampleRDD): (X transforms) def ...

scala spark-dataframe apache-spark

10 die antwort

Wie erstelle ich einen DataFrame aus der Liste der Iterables von Scala?

Ich habe den folgenden Scala-Wert: val values: List[Iterable[Any]] = Traces().evaluate(features).toListund ich möchte es in einen DataFrame konvertieren. Wenn ich Folgendes versuche: sqlContext.createDataFrame(values)Ich habe diesen Fehler ...

pyspark-sql pyspark apache-spark

8 die antwort

Pyspark-String in Datumsformat konvertieren

Ich habe einen Datums-Pyspark-Datenrahmen mit einer Zeichenfolgenspalte im FormatMM-dd-yyyy und ich versuche, dies in eine Datumsspalte umzuwandeln. Ich habe es versucht df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() und ich ...

pyspark type-conversion python

4 die antwort

get value out of dataframe

n Scala kann ichget(#) odergetAs[Type](#), um Werte aus einem Datenrahmen abzurufen. Wie soll ich das in @ machpyspark? Ich habe einen DataFrame mit zwei Spalten:item(string) undsalesNum(integers). Ich mache eingroupby undmean, um einen ...

Seite 24 von 32

22 232425 26

Suchergebnisse für Anfrage "apache-spark-sql"

Kann sqlContext.implicits._ nicht ohne Fehler über Jupyter importieren

Wie berechnet man das Perzentil der Spalte in einem DataFrame im Spark?

Spark unionAlle mehreren Datenrahmen

Beliebte Schlagwörter

TOP-Veröffentlichungen

Rename geschwenkte und aggregierte Spalte in PySpark Dataframe

Was ist eine optimierte Methode zum Verknüpfen großer Tabellen in Spark SQL

Was bedeuten die Spalten "rawPrediction" und "Probability" von DataFrame in Spark MLlib?

Wie führe ich mithilfe von PySpark parallel unabhängige Transformationen durch?

Wie erstelle ich einen DataFrame aus der Liste der Iterables von Scala?

Pyspark-String in Datumsformat konvertieren

get value out of dataframe

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "apache-spark-sql"

Beliebte Schlagwörter

TOP-Veröffentlichungen