Suchergebnisse für Anfrage "apache-spark"

ImJDBC zu anderen Datenbanken [http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases] Ich fand die folgende Erklärung vondbtable parameter: Die JDBC-Tabelle, die gelesen werden soll. Beachten Sie, dass alles, ...

apache-zeppelin emr yarn

0 die antwort

Wie richte ich Zeppelin so ein, dass es mit einem entfernten EMR-Garncluster zusammenarbeitet?

Ich habe einen Amazon EMR Hadoop v2.6-Cluster mit Spark 1.4.1 und Yarn Resource Manager. Ich möchte Zeppelin auf einem separaten Computer bereitstellen, damit der EMR-Cluster deaktiviert werden kann, wenn keine Jobs ausgeführt werden. Ich habe ...

python rdd pyspark

2 die antwort

Klassenfunktionen an PySpark RDD übergeben

Ich habe eine Klasse namens some_class () in einer Python-Datei hier: /some-folder/app/bin/file.py Ich importiere es hier in meinen Code: /some-folder2/app/code/file2.pyDurc import sys sys.path.append('/some-folder/app/bin') from file import ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

scala hadoop bigdata

2 die antwort

Was passiert, wenn ein RDD in Spark nicht in den Speicher passt? [Duplikat

Diese Frage hat hier bereits eine Antwort: Was macht der Funke, wenn ich nicht genug Speicher habe? [/questions/20301661/what-will-spark-do-if-i-dont-have-enough-memory] 3 answers Soweit ich weiß, versucht Spark, alle Berechnungen im ...

apache-spark-sql pyspark sql window-functions

2 die antwort

SparkSQL - Lag-Funktion?

Ich sehe in diesemDataBricks post [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , in SparkSql werden Fensterfunktionen unterstützt, insbesondere versuche ich, die Fensterfunktion lag () zu verwenden. Ich ...

scala apache-spark-sql

6 die antwort

Was ist der beste Weg, um benutzerdefinierte Methoden in einem DataFrame zu definieren?

Ich muss benutzerdefinierte Methoden für DataFrame definieren. Was ist der bessere Weg, um es zu tun? Die Lösung sollte skalierbar sein, da ich eine erhebliche Anzahl benutzerdefinierter Methoden definieren möchte. ein aktueller Ansatz ist es, ...

apache-spark-ml scala r

2 die antwort

Spark ML Pipeline Logistic Regression liefert viel schlimmere Vorhersagen als R GLM

Ich habe ML PipeLine verwendet, um logistische Regressionsmodelle auszuführen, aber aus bestimmten Gründen habe ich die schlechtesten Ergebnisse erzielt als R. Ich habe einige Nachforschungen angestellt, und der einzige Beitrag, bei dem ...

distributed-computing bigdata rdd hadoop

4 die antwort

Würde Spark das RDD selbst deaktivieren, wenn er merkt, dass es nicht mehr verwendet wird?

Wir können eine RDD im Speicher und / oder auf der Festplatte beibehalten, wenn wir sie mehrmals verwenden möchten. Müssen wir sie jedoch später selbst deaktivieren oder führt Spark eine Art Garbage Collection durch und deaktiviert die RDD, wenn ...

apache-spark-sql python pyspark

4 die antwort

Spark DataFrame: Zeilenweise Mittelwertberechnung (oder eine beliebige Aggregatoperation)

Ich habe einen Spark-DataFrame im Speicher geladen, und ich möchte den Mittelwert (oder eine beliebige Aggregatoperation) über die Spalten ziehen. Wie würde ich das machen? (Imnumpy, dies wird als Übernahme einer Operation über ...

spark-dataframe apache-spark-sql scala

2 die antwort

Wie filtere ich einen Spark-Datenrahmen gegen einen anderen Datenrahmen?

Ich versuche, einen Datenrahmen gegen einen anderen zu filtern: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id")Now ...

Seite 47 von 113

45 464748 49

Suchergebnisse für Anfrage "apache-spark"

Wie verwende ich eine SQL-Abfrage, um eine Tabelle in dbtable zu definieren?

Wie richte ich Zeppelin so ein, dass es mit einem entfernten EMR-Garncluster zusammenarbeitet?

Klassenfunktionen an PySpark RDD übergeben

Beliebte Schlagwörter

TOP-Veröffentlichungen

Was passiert, wenn ein RDD in Spark nicht in den Speicher passt? [Duplikat

SparkSQL - Lag-Funktion?

Was ist der beste Weg, um benutzerdefinierte Methoden in einem DataFrame zu definieren?

Spark ML Pipeline Logistic Regression liefert viel schlimmere Vorhersagen als R GLM

Würde Spark das RDD selbst deaktivieren, wenn er merkt, dass es nicht mehr verwendet wird?

Spark DataFrame: Zeilenweise Mittelwertberechnung (oder eine beliebige Aggregatoperation)

Wie filtere ich einen Spark-Datenrahmen gegen einen anderen Datenrahmen?

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "apache-spark"

Beliebte Schlagwörter

TOP-Veröffentlichungen