Suchergebnisse für Anfrage "apache-spark-sql"

8 die antwort

Pyspark und PCA: Wie kann ich die Eigenvektoren dieser PCA extrahieren? Wie kann ich berechnen, wie viel Varianz sie erklären?

Ich reduziere die Dimensionalität einesSpark DataFrame mitPCA Modell mit Pyspark (mit demspark ml Bibliothek) wie folgt: pca = PCA(k=3, inputCol="features", outputCol="pca_features") model = pca.fit(data)wodata ist einSpark DataFrame mit einer ...

2 die antwort

Access Array-Spalte in Spark

Ein Spark-DataFrame enthält eine Spalte vom Typ Array [Double]. Es löst eine ClassCastException-Ausnahme aus, wenn ich versuche, sie in einer map () -Funktion wiederherzustellen. Der folgende Scala-Code generiert eine Ausnahme. case class ...

2 die antwort

Wie können wir zwei Spark-SQL-Datenrahmen mit einem SQL-ähnlichen „LIKE“ -Kriterium verbinden?

Wir verwenden die mit Spark 1.3.1 verbundenen PySpark-Bibliotheken. Wir haben zwei Datenrahmen,documents_df := {document_id, document_text} undkeywords_df := {keyword}. Wir möchten die beiden Datenrahmen verbinden und einen resultierenden ...

TOP-Veröffentlichungen

2 die antwort

Wie verarbeitet Spark DataFrame Pandas DataFrame, der größer als der Speicher ist

Ich lerne gerade Spark und es scheint die Big-Data-Lösung für Pandas Dataframe zu sein, aber ich habe diese Frage, die mich unsicher macht. Gegenwärtig speichere ich Pandas-Datenrahmen, die größer als der Speicher sind, mit HDF5. HDF5 ist ein ...

6 die antwort

Wie speichere ich einen Spark-DataFrame als CSV auf der Festplatte?

Zum Beispiel das Ergebnis davon: df.filter("project = 'en'").select("title","count").groupBy("title").sum()would ein Array zurückgeben. Wie speichere ich einen Spark-DataFrame als CSV-Datei auf der Festplatte?

2 die antwort

Spark-Fensterfunktionen - BereichZwischen Datumsangaben

Ich habe einen Spark SQLDataFrame mit Daten und was ich versuche zu erhalten, ist alle Zeilen vor der aktuellen Zeile in einem bestimmten Datumsbereich. So möchte ich zum Beispiel alle Zeilen ab 7 Tagen vor der angegebenen Zeile haben. Ich habe ...

4 die antwort

Explodieren (transponieren?) Sie mehrere Spalten in der Spark-SQL-Tabelle

Ich verwende Spark SQL (ich erwähne, dass es in Spark ist, falls es die SQL-Syntax beeinflusst - ich bin noch nicht vertraut genug, um sicher zu sein) und ich habe eine Tabelle, die ich neu strukturieren möchte, aber ich ' Ich stecke fest und ...

18 die antwort

Beste Möglichkeit, den Maximalwert in einer Spark-Datenrahmenspalte zu ermitteln

Ich versuche, den besten Weg zu finden, um den größten Wert in einer Spark-Datenrahmenspalte zu erhalten. Betrachten Sie das folgende Beispiel: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() Welche ...

4 die antwort

Verwenden von groupBy in Spark und Zurückkehren zu einem DataFrame

Ich habe Probleme beim Arbeiten mit Datenrahmen in Spark mit Scala. Wenn ich einen Datenrahmen habe, aus dem ich eine Spalte eindeutiger Einträge extrahieren möchte, verwende ichgroupBy Ich erhalte keinen Datenrahmen zurück. Zum Beispiel habe ...

4 die antwort

Apache Spark löst NullPointerException aus, wenn ein fehlendes Feature gefunden wird

Ich habe ein bizarres Problem mit PySpark beim Indizieren von Stringspalten in Features. Hier ist meine tmp.csv-Datei: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1 wo ich einen ...