Suchergebnisse für Anfrage "apache-spark"

4 die antwort

Spark on YARN zu wenig vcores verwendet

Ich verwende Spark in einem YARN-Cluster (HDP 2.4) mit den folgenden Einstellungen: 1 Masternode 64 GB RAM (50 GB nutzbar) 24 Kerne (19 Kerne verwendbar) 5 Slavenodes 64 GB RAM (jeweils 50 GB nutzbar) 24 Kerne (19 Kerne verwendbar) jeYARN ...

6 die antwort

Spark SQL schlägt fehl, weil der konstante Pool über das JVM-Limit von 0xFFFF hinaus gewachsen ist.

Ich führe diesen Code auf EMR 4.6.0 + Spark 1.6.1 aus: val sqlContext = SQLContext.getOrCreate(sc) val inputRDD = sqlContext.read.json(input) try { inputRDD.filter("`first_field` is not null OR `second_field` is not ...

2 die antwort

Wie werden die Protokolle eines Spark-Jobs angezeigt, nachdem dieser abgeschlossen und der Kontext geschlossen wurde?

Ich rennepyspark, spark 1.3, standalone mode, client mode. Ich versuche, meinen Spark-Job zu untersuchen, indem ich mir die Jobs aus der Vergangenheit anschaue und sie miteinander vergleiche. Ich möchte ihre Protokolle, die ...

TOP-Veröffentlichungen

2 die antwort

Connection-Pooling in einer Pyspark-Streaming-Anwendung

Wie werden Verbindungspools in einer Pyspark-Streaming-Anwendung ordnungsgemäß verwendet? Ich lese ...

2 die antwort

Darstellung der Vektorspalte in Spark SQL verstehen

Bevor ich mit VectorAssembler () einige kategoriale OneHotEncoded-Features konsolidiert habe ... sah mein Datenrahmen folgendermaßen aus: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...

2 die antwort

Wie Scala wrappedArray durchlaufen? (Funke

Ich führe die folgenden Vorgänge aus: val tempDict = sqlContext.sql("select words.pName_token,collect_set(words.pID) as docids from words group by words.pName_token").toDF() val wordDocs = tempDict.filter(newDict("pName_token")===word) val ...

2 die antwort

Erstellen Sie einen Datenrahmen in Pyspark, der eine einzelne Spalte mit Tupeln enthält

Ich habe eine RDD, die Folgendes enthält: [('Spalte 1', Wert), ('Spalte 2', Wert), ('Spalte 3', Wert), ..., ('Spalte 100', Wert)] . Ich möchte einen Datenrahmen erstellen, der eine einzelne Spalte mit Tupeln enthält. Der nächste, den ich ...

2 die antwort

Spark: Dataframe.subtract gibt alles zurück, wenn der Schlüssel nicht der erste in der Zeile ist

Ich versuche, @ zu verwend SQLContext.subtract () [https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.subtract] in Spark 1.6.1 zum Entfernen von Zeilen aus einem Datenrahmen basierend auf einer Spalte aus ...

4 die antwort

Spark SQL UDF mit komplexem Eingabeparameter

Ich versuche, UDF mit dem Eingabetyp Array von struct zu verwenden. Ich habe folgende Datenstruktur dies ist nur relevanter Teil einer größeren Struktur |--investments: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- ...

10 die antwort

Wie konvertiere ich einen JSON-String in einen Datenrahmen?

Ich möchte die unten stehende Zeichenfolgenvariable bei Funken in einen Datenrahmen konvertieren. val jsonStr = "{ "metadata": { "key": 84896, "value": 54 }}"Ich weiß, wie man einen Datenrahmen aus einer JSON-Datei ...