Suchergebnisse für Anfrage "apache-spark"
Wie verwende ich eine SQL-Abfrage, um eine Tabelle in dbtable zu definieren?
ImJDBC zu anderen Datenbanken [http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases] Ich fand die folgende Erklärung vondbtable parameter: Die JDBC-Tabelle, die gelesen werden soll. Beachten Sie, dass alles, ...
Wie richte ich Zeppelin so ein, dass es mit einem entfernten EMR-Garncluster zusammenarbeitet?
Ich habe einen Amazon EMR Hadoop v2.6-Cluster mit Spark 1.4.1 und Yarn Resource Manager. Ich möchte Zeppelin auf einem separaten Computer bereitstellen, damit der EMR-Cluster deaktiviert werden kann, wenn keine Jobs ausgeführt werden. Ich habe ...
Klassenfunktionen an PySpark RDD übergeben
Ich habe eine Klasse namens some_class () in einer Python-Datei hier: /some-folder/app/bin/file.py Ich importiere es hier in meinen Code: /some-folder2/app/code/file2.pyDurc import sys sys.path.append('/some-folder/app/bin') from file import ...
Was passiert, wenn ein RDD in Spark nicht in den Speicher passt? [Duplikat
Diese Frage hat hier bereits eine Antwort: Was macht der Funke, wenn ich nicht genug Speicher habe? [/questions/20301661/what-will-spark-do-if-i-dont-have-enough-memory] 3 answers Soweit ich weiß, versucht Spark, alle Berechnungen im ...
SparkSQL - Lag-Funktion?
Ich sehe in diesemDataBricks post [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , in SparkSql werden Fensterfunktionen unterstützt, insbesondere versuche ich, die Fensterfunktion lag () zu verwenden. Ich ...
Was ist der beste Weg, um benutzerdefinierte Methoden in einem DataFrame zu definieren?
Ich muss benutzerdefinierte Methoden für DataFrame definieren. Was ist der bessere Weg, um es zu tun? Die Lösung sollte skalierbar sein, da ich eine erhebliche Anzahl benutzerdefinierter Methoden definieren möchte. ein aktueller Ansatz ist es, ...
Spark ML Pipeline Logistic Regression liefert viel schlimmere Vorhersagen als R GLM
Ich habe ML PipeLine verwendet, um logistische Regressionsmodelle auszuführen, aber aus bestimmten Gründen habe ich die schlechtesten Ergebnisse erzielt als R. Ich habe einige Nachforschungen angestellt, und der einzige Beitrag, bei dem ...
Würde Spark das RDD selbst deaktivieren, wenn er merkt, dass es nicht mehr verwendet wird?
Wir können eine RDD im Speicher und / oder auf der Festplatte beibehalten, wenn wir sie mehrmals verwenden möchten. Müssen wir sie jedoch später selbst deaktivieren oder führt Spark eine Art Garbage Collection durch und deaktiviert die RDD, wenn ...
Spark DataFrame: Zeilenweise Mittelwertberechnung (oder eine beliebige Aggregatoperation)
Ich habe einen Spark-DataFrame im Speicher geladen, und ich möchte den Mittelwert (oder eine beliebige Aggregatoperation) über die Spalten ziehen. Wie würde ich das machen? (Imnumpy, dies wird als Übernahme einer Operation über ...
Wie filtere ich einen Spark-Datenrahmen gegen einen anderen Datenrahmen?
Ich versuche, einen Datenrahmen gegen einen anderen zu filtern: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id")Now ...