Suchergebnisse für Anfrage "apache-spark"

4 die antwort

Wie verwende ich eine SQL-Abfrage, um eine Tabelle in dbtable zu definieren?

ImJDBC zu anderen Datenbanken [http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases] Ich fand die folgende Erklärung vondbtable parameter: Die JDBC-Tabelle, die gelesen werden soll. Beachten Sie, dass alles, ...

0 die antwort

Wie richte ich Zeppelin so ein, dass es mit einem entfernten EMR-Garncluster zusammenarbeitet?

Ich habe einen Amazon EMR Hadoop v2.6-Cluster mit Spark 1.4.1 und Yarn Resource Manager. Ich möchte Zeppelin auf einem separaten Computer bereitstellen, damit der EMR-Cluster deaktiviert werden kann, wenn keine Jobs ausgeführt werden. Ich habe ...

2 die antwort

Klassenfunktionen an PySpark RDD übergeben

Ich habe eine Klasse namens some_class () in einer Python-Datei hier: /some-folder/app/bin/file.py Ich importiere es hier in meinen Code: /some-folder2/app/code/file2.pyDurc import sys sys.path.append('/some-folder/app/bin') from file import ...

TOP-Veröffentlichungen

2 die antwort

Was passiert, wenn ein RDD in Spark nicht in den Speicher passt? [Duplikat

Diese Frage hat hier bereits eine Antwort: Was macht der Funke, wenn ich nicht genug Speicher habe? [/questions/20301661/what-will-spark-do-if-i-dont-have-enough-memory] 3 answers Soweit ich weiß, versucht Spark, alle Berechnungen im ...

2 die antwort

SparkSQL - Lag-Funktion?

Ich sehe in diesemDataBricks post [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , in SparkSql werden Fensterfunktionen unterstützt, insbesondere versuche ich, die Fensterfunktion lag () zu verwenden. Ich ...

6 die antwort

Was ist der beste Weg, um benutzerdefinierte Methoden in einem DataFrame zu definieren?

Ich muss benutzerdefinierte Methoden für DataFrame definieren. Was ist der bessere Weg, um es zu tun? Die Lösung sollte skalierbar sein, da ich eine erhebliche Anzahl benutzerdefinierter Methoden definieren möchte. ein aktueller Ansatz ist es, ...

2 die antwort

Spark ML Pipeline Logistic Regression liefert viel schlimmere Vorhersagen als R GLM

Ich habe ML PipeLine verwendet, um logistische Regressionsmodelle auszuführen, aber aus bestimmten Gründen habe ich die schlechtesten Ergebnisse erzielt als R. Ich habe einige Nachforschungen angestellt, und der einzige Beitrag, bei dem ...

4 die antwort

Würde Spark das RDD selbst deaktivieren, wenn er merkt, dass es nicht mehr verwendet wird?

Wir können eine RDD im Speicher und / oder auf der Festplatte beibehalten, wenn wir sie mehrmals verwenden möchten. Müssen wir sie jedoch später selbst deaktivieren oder führt Spark eine Art Garbage Collection durch und deaktiviert die RDD, wenn ...

4 die antwort

Spark DataFrame: Zeilenweise Mittelwertberechnung (oder eine beliebige Aggregatoperation)

Ich habe einen Spark-DataFrame im Speicher geladen, und ich möchte den Mittelwert (oder eine beliebige Aggregatoperation) über die Spalten ziehen. Wie würde ich das machen? (Imnumpy, dies wird als Übernahme einer Operation über ...

2 die antwort

Wie filtere ich einen Spark-Datenrahmen gegen einen anderen Datenrahmen?

Ich versuche, einen Datenrahmen gegen einen anderen zu filtern: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id")Now ...