Suchergebnisse für Anfrage "apache-spark-sql"

Pyspark und PCA: Wie kann ich die Eigenvektoren dieser PCA extrahieren? Wie kann ich berechnen, wie viel Varianz sie erklären?

Ich reduziere die Dimensionalität einesSpark DataFrame mitPCA Modell mit Pyspark (mit demspark ml Bibliothek) wie folgt: pca = PCA(k=3, inputCol="features", outputCol="pca_features") model = pca.fit(data)wodata ist einSpark DataFrame mit einer ...

arrays classcastexception apache-spark scala

2 die antwort

Access Array-Spalte in Spark

Ein Spark-DataFrame enthält eine Spalte vom Typ Array [Double]. Es löst eine ClassCastException-Ausnahme aus, wenn ich versuche, sie in einer map () -Funktion wiederherzustellen. Der folgende Scala-Code generiert eine Ausnahme. case class ...

python apache-spark pyspark

2 die antwort

Wie können wir zwei Spark-SQL-Datenrahmen mit einem SQL-ähnlichen „LIKE“ -Kriterium verbinden?

Wir verwenden die mit Spark 1.3.1 verbundenen PySpark-Bibliotheken. Wir haben zwei Datenrahmen,documents_df := {document_id, document_text} undkeywords_df := {keyword}. Wir möchten die beiden Datenrahmen verbinden und einen resultierenden ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

pandas dataframe apache-spark hdf5

2 die antwort

Wie verarbeitet Spark DataFrame Pandas DataFrame, der größer als der Speicher ist

Ich lerne gerade Spark und es scheint die Big-Data-Lösung für Pandas Dataframe zu sein, aber ich habe diese Frage, die mich unsicher macht. Gegenwärtig speichere ich Pandas-Datenrahmen, die größer als der Speicher sind, mit HDF5. HDF5 ist ein ...

scala apache-spark

6 die antwort

Wie speichere ich einen Spark-DataFrame als CSV auf der Festplatte?

Zum Beispiel das Ergebnis davon: df.filter("project = 'en'").select("title","count").groupBy("title").sum()would ein Array zurückgeben. Wie speichere ich einen Spark-DataFrame als CSV-Datei auf der Festplatte?

apache-spark window-functions sql pyspark

2 die antwort

Spark-Fensterfunktionen - BereichZwischen Datumsangaben

Ich habe einen Spark SQLDataFrame mit Daten und was ich versuche zu erhalten, ist alle Zeilen vor der aktuellen Zeile in einem bestimmten Datumsbereich. So möchte ich zum Beispiel alle Zeilen ab 7 Tagen vor der angegebenen Zeile haben. Ich habe ...

hiveql sql apache-spark

4 die antwort

Explodieren (transponieren?) Sie mehrere Spalten in der Spark-SQL-Tabelle

Ich verwende Spark SQL (ich erwähne, dass es in Spark ist, falls es die SQL-Syntax beeinflusst - ich bin noch nicht vertraut genug, um sicher zu sein) und ich habe eine Tabelle, die ich neu strukturieren möchte, aber ich ' Ich stecke fest und ...

apache-spark spark-dataframe pyspark python

18 die antwort

Beste Möglichkeit, den Maximalwert in einer Spark-Datenrahmenspalte zu ermitteln

Ich versuche, den besten Weg zu finden, um den größten Wert in einer Spark-Datenrahmenspalte zu erhalten. Betrachten Sie das folgende Beispiel: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() Welche ...

apache-spark scala

4 die antwort

Verwenden von groupBy in Spark und Zurückkehren zu einem DataFrame

Ich habe Probleme beim Arbeiten mit Datenrahmen in Spark mit Scala. Wenn ich einen Datenrahmen habe, aus dem ich eine Spalte eindeutiger Einträge extrahieren möchte, verwende ichgroupBy Ich erhalte keinen Datenrahmen zurück. Zum Beispiel habe ...

apache-spark pyspark apache-spark-ml python

4 die antwort

Apache Spark löst NullPointerException aus, wenn ein fehlendes Feature gefunden wird

Ich habe ein bizarres Problem mit PySpark beim Indizieren von Stringspalten in Features. Hier ist meine tmp.csv-Datei: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1 wo ich einen ...

Seite 11 von 32

9 101112 13

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "apache-spark-sql"

Beliebte Schlagwörter

TOP-Veröffentlichungen