Suchergebnisse für Anfrage "apache-spark"
Spark on YARN zu wenig vcores verwendet
Ich verwende Spark in einem YARN-Cluster (HDP 2.4) mit den folgenden Einstellungen: 1 Masternode 64 GB RAM (50 GB nutzbar) 24 Kerne (19 Kerne verwendbar) 5 Slavenodes 64 GB RAM (jeweils 50 GB nutzbar) 24 Kerne (19 Kerne verwendbar) jeYARN ...
Spark SQL schlägt fehl, weil der konstante Pool über das JVM-Limit von 0xFFFF hinaus gewachsen ist.
Ich führe diesen Code auf EMR 4.6.0 + Spark 1.6.1 aus: val sqlContext = SQLContext.getOrCreate(sc) val inputRDD = sqlContext.read.json(input) try { inputRDD.filter("`first_field` is not null OR `second_field` is not ...
Wie werden die Protokolle eines Spark-Jobs angezeigt, nachdem dieser abgeschlossen und der Kontext geschlossen wurde?
Ich rennepyspark, spark 1.3, standalone mode, client mode. Ich versuche, meinen Spark-Job zu untersuchen, indem ich mir die Jobs aus der Vergangenheit anschaue und sie miteinander vergleiche. Ich möchte ihre Protokolle, die ...
Connection-Pooling in einer Pyspark-Streaming-Anwendung
Wie werden Verbindungspools in einer Pyspark-Streaming-Anwendung ordnungsgemäß verwendet? Ich lese ...
Darstellung der Vektorspalte in Spark SQL verstehen
Bevor ich mit VectorAssembler () einige kategoriale OneHotEncoded-Features konsolidiert habe ... sah mein Datenrahmen folgendermaßen aus: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...
Wie Scala wrappedArray durchlaufen? (Funke
Ich führe die folgenden Vorgänge aus: val tempDict = sqlContext.sql("select words.pName_token,collect_set(words.pID) as docids from words group by words.pName_token").toDF() val wordDocs = tempDict.filter(newDict("pName_token")===word) val ...
Erstellen Sie einen Datenrahmen in Pyspark, der eine einzelne Spalte mit Tupeln enthält
Ich habe eine RDD, die Folgendes enthält: [('Spalte 1', Wert), ('Spalte 2', Wert), ('Spalte 3', Wert), ..., ('Spalte 100', Wert)] . Ich möchte einen Datenrahmen erstellen, der eine einzelne Spalte mit Tupeln enthält. Der nächste, den ich ...
Spark: Dataframe.subtract gibt alles zurück, wenn der Schlüssel nicht der erste in der Zeile ist
Ich versuche, @ zu verwend SQLContext.subtract () [https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.subtract] in Spark 1.6.1 zum Entfernen von Zeilen aus einem Datenrahmen basierend auf einer Spalte aus ...
Spark SQL UDF mit komplexem Eingabeparameter
Ich versuche, UDF mit dem Eingabetyp Array von struct zu verwenden. Ich habe folgende Datenstruktur dies ist nur relevanter Teil einer größeren Struktur |--investments: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- ...
Wie konvertiere ich einen JSON-String in einen Datenrahmen?
Ich möchte die unten stehende Zeichenfolgenvariable bei Funken in einen Datenrahmen konvertieren. val jsonStr = "{ "metadata": { "key": 84896, "value": 54 }}"Ich weiß, wie man einen Datenrahmen aus einer JSON-Datei ...