Suchergebnisse für Anfrage "apache-spark-sql"
Wie filtere ich einen Spark-Datenrahmen gegen einen anderen Datenrahmen?
Ich versuche, einen Datenrahmen gegen einen anderen zu filtern: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id")Now ...
Wie verwende ich Fensterfunktionen in PySpark mit DataFrames?
Versuche herauszufinden, wie Fensterfunktionen in PySpark verwendet werden. Hier ist ein Beispiel dafür, was ich tun möchte: Zählen Sie einfach, wie oft ein Benutzer ein "Ereignis" hat (in diesem Fall ist "dt" ein simulierter Zeitstempel). from ...
Wie überprüfe ich, ob der Spark-Datenrahmen leer ist?
Right jetzt muss ich @ verwenddf.count > 0, um zu überprüfen, ob dasDataFrame ist leer oder nicht. Aber es ist irgendwie ineffizient. Gibt es einen besseren Weg, das zu tun? Vielen Dank PS: Ich möchte überprüfen, ob es leer ist, damit ich nur ...
Create Spark DataFrame. Schema für Typ kann nicht abgeleitet werden: <Typ 'float'>
Kann mir jemand bei der Lösung dieses Problems mit Spark DataFrame helfen? Wann mache ichmyFloatRDD.toDF() Ich erhalte eine Fehlermeldung: TypeError: Schema für Typ kann nicht abgeleitet werden: Typ 'float' Ich verstehe nicht warum ...
Wie konvertiere ich ein RDD mit einer SparseVector-Spalte in einen DataFrame mit einer Spalte als Vector
Ich habe ein RDD mit einem Tupel von Werten (String, SparseVector) und ich möchte ein @ erstell DataFrame Verwendung der RDD. Um ein (label: string, features: vector) @ zu erhalt DataFrame ist das Schema, das von den meisten Bibliotheken des ...
Was läuft falsch mit `unionAll` of Spark` DataFrame`?
it Spark 1.5.0 und dem folgenden Code erwarte ich, dass unionAll unionDataFrames basierend auf ihrem Spaltennamen. Im Code verwende ich FunSuite, um SparkContext @ zu übergebesc: object Entities { case class A (a: Int, b: Int) case class B (b: ...
'PipelinedRDD' Objekt hat kein Attribut 'toDF' in PySpark
Ich versuche eine SVM-Datei zu laden und in eine @ zu konvertierDataFrame damit ich das ML Modul benutzen kann Pipeline ML) von Spark. Ich habe gerade einen neuen Spark 1.5.0 auf einem Ubuntu 14.04 installiert ...
Wie füge ich eine konstante Spalte in einem Spark-DataFrame hinzu?
Ich möchte eine Spalte in einem @ hinzufügDataFrame mit einem beliebigen Wert (das ist für jede Zeile gleich). Ich erhalte eine Fehlermeldung, wenn ich @ benutwithColumn wie folgt dt.withColumn('new_column', ...
ei Amazon EMR 4.0.0 ist die Einstellung /etc/spark/conf/spark-env.conf unwirksa
Ich starte meinen funkenbasierten Hiveserver2 auf Amazon EMR, der eine zusätzliche Klassenpfadabhängigkeit aufweist. Aufgrund dieses Fehlers in ...
So komprimieren Sie zwei (oder mehr) DataFrames in Spark
Ich habe zweiDataFrame a undb. a ist wi Column 1 | Column 2 abc | 123 cde | 23b ist wi Column 1 1 2Ich möchte @ za undb (oder noch mehr) DataFrames, die ungefähr so aussehen: Column 1 | Column 2 | Column 3 abc | 123 | 1 cde | 23 | 2Wie kann ...