Suchergebnisse für Anfrage "apache-spark-sql"

2 die antwort

Wie filtere ich einen Spark-Datenrahmen gegen einen anderen Datenrahmen?

Ich versuche, einen Datenrahmen gegen einen anderen zu filtern: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id")Now ...

2 die antwort

Wie verwende ich Fensterfunktionen in PySpark mit DataFrames?

Versuche herauszufinden, wie Fensterfunktionen in PySpark verwendet werden. Hier ist ein Beispiel dafür, was ich tun möchte: Zählen Sie einfach, wie oft ein Benutzer ein "Ereignis" hat (in diesem Fall ist "dt" ein simulierter Zeitstempel). from ...

22 die antwort

Wie überprüfe ich, ob der Spark-Datenrahmen leer ist?

Right jetzt muss ich @ verwenddf.count > 0, um zu überprüfen, ob dasDataFrame ist leer oder nicht. Aber es ist irgendwie ineffizient. Gibt es einen besseren Weg, das zu tun? Vielen Dank PS: Ich möchte überprüfen, ob es leer ist, damit ich nur ...

TOP-Veröffentlichungen

2 die antwort

Create Spark DataFrame. Schema für Typ kann nicht abgeleitet werden: <Typ 'float'>

Kann mir jemand bei der Lösung dieses Problems mit Spark DataFrame helfen? Wann mache ichmyFloatRDD.toDF() Ich erhalte eine Fehlermeldung: TypeError: Schema für Typ kann nicht abgeleitet werden: Typ 'float' Ich verstehe nicht warum ...

6 die antwort

Wie konvertiere ich ein RDD mit einer SparseVector-Spalte in einen DataFrame mit einer Spalte als Vector

Ich habe ein RDD mit einem Tupel von Werten (String, SparseVector) und ich möchte ein @ erstell DataFrame Verwendung der RDD. Um ein (label: string, features: vector) @ zu erhalt DataFrame ist das Schema, das von den meisten Bibliotheken des ...

8 die antwort

Was läuft falsch mit `unionAll` of Spark` DataFrame`?

it Spark 1.5.0 und dem folgenden Code erwarte ich, dass unionAll unionDataFrames basierend auf ihrem Spaltennamen. Im Code verwende ich FunSuite, um SparkContext @ zu übergebesc: object Entities { case class A (a: Int, b: Int) case class B (b: ...

2 die antwort

'PipelinedRDD' Objekt hat kein Attribut 'toDF' in PySpark

Ich versuche eine SVM-Datei zu laden und in eine @ zu konvertierDataFrame damit ich das ML Modul benutzen kann Pipeline ML) von Spark. Ich habe gerade einen neuen Spark 1.5.0 auf einem Ubuntu 14.04 installiert ...

6 die antwort

Wie füge ich eine konstante Spalte in einem Spark-DataFrame hinzu?

Ich möchte eine Spalte in einem @ hinzufügDataFrame mit einem beliebigen Wert (das ist für jede Zeile gleich). Ich erhalte eine Fehlermeldung, wenn ich @ benutwithColumn wie folgt dt.withColumn('new_column', ...

4 die antwort

ei Amazon EMR 4.0.0 ist die Einstellung /etc/spark/conf/spark-env.conf unwirksa

Ich starte meinen funkenbasierten Hiveserver2 auf Amazon EMR, der eine zusätzliche Klassenpfadabhängigkeit aufweist. Aufgrund dieses Fehlers in ...

8 die antwort

So komprimieren Sie zwei (oder mehr) DataFrames in Spark

Ich habe zweiDataFrame a undb. a ist wi Column 1 | Column 2 abc | 123 cde | 23b ist wi Column 1 1 2Ich möchte @ za undb (oder noch mehr) DataFrames, die ungefähr so aussehen: Column 1 | Column 2 | Column 3 abc | 123 | 1 cde | 23 | 2Wie kann ...