Suchergebnisse für Anfrage "apache-spark"

8 die antwort

Wie Umgebungsvariablen im Cluster-Modus mit spark-submit @ an den Spark-Treiber übergeben werd

spark-submit ermöglicht die Konfiguration der Executor-Umgebungsvariablen mit--conf spark.executorEnv.FOO=bar, und die Spark-REST-API ermöglicht die Übergabe einiger Umgebungsvariablen mit demenvironmentVariables Feld. Leider habe ich nichts ...

2 die antwort

LinearRegression scala.MatchError:

Ich erhalte einen scala.MatchError, wenn ich einen ParamGridBuilder in Spark 1.6.1 und 2.0 verwende. val paramGrid = new ParamGridBuilder() .addGrid(lr.regParam, Array(0.1, 0.01)) .addGrid(lr.fitIntercept) .addGrid(lr.elasticNetParam, Array(0.0, ...

6 die antwort

Spark java.lang.StackOverflowError

Ich verwende spark, um den PageRank von Nutzerbewertungen zu berechnen, erhalte aber weiterhin Spark java.lang.StackOverflowError, wenn ich meinen Code auf einem großen Datensatz (40.000 Einträge) ausführe. Wenn Sie den Code für eine kleine ...

TOP-Veröffentlichungen

0 die antwort

Spark - java.lang.ClassCastException: Instanz von java.lang.invoke.SerializedLambda kann nicht dem Feld org.apache.spark.api.java.JavaRDDLike @ zugewiesen werd

public class SparkDemo { @SuppressWarnings({ "resource" }) public static void main(String[] args) { SparkConf conf = new SparkConf().setAppName("Spark APP").setMaster("spark://xxx.xxx.xxx.xx:7077"); JavaSparkContext sc = ...

12 die antwort

Transponiere Spalte zu Zeile mit Spark

Ich versuche, einige Spalten meiner Tabelle in Zeilen umzuwandeln. Ich benutze Python und Spark 1.5.0. Hier ist mein erster Tisch: +-----+-----+-----+-------+ | A |col_1|col_2|col_...| +-----+-------------------+ | 1 | 0.0| 0.6| ... | | 2 | ...

8 die antwort

Wie werden die Vorkommen jedes einzelnen Werts für jede Spalte in einem Datenrahmen gezählt?

edf.select("x").distinct.show() zeigt die unterschiedlichen Werte, die in @ vorhanden six Spalte vonedf DataFrame. Gibt es eine effiziente Methode, um auch anzuzeigen, wie oft diese unterschiedlichen Werte im Datenrahmen vorkommen? (Zähle für ...

4 die antwort

Vergleichen von zwei RDDs

Ich habe zwei RDD [Array [String]], nennen wir sie rdd1 und rdd2. Ich würde ein neues RDD erstellen, das nur die Einträge von rdd2 enthält, nicht in rdd1 (basierend auf einem Schlüssel). Ich verwende Spark auf Scala über Intellij. Ich habe rdd1 ...

4 die antwort

Wie man Dateien im HDFS-Verzeichnis auflistet

Wie zähle ich Dateien im HDFS-Verzeichnis auf? Dies dient zum Auflisten von Dateien im Apache Spark-Cluster mit Scala. Ich sehe, dass es die Option sc.textfile () gibt, die aber auch den Inhalt liest. Ich möchte nur Dateinamen lesen. Ich habe ...

2 die antwort

Wie führe ich mithilfe von PySpark parallel unabhängige Transformationen durch?

Ich versuche, mit PySpark 2 Funktionen auszuführen, die vollständig unabhängige Transformationen auf einer einzelnen RDD gleichzeitig ausführen. Was sind einige Methoden, um dasselbe zu tun? def doXTransforms(sampleRDD): (X transforms) def ...

0 die antwort

Typesafe Config in Spark

Ich habe in meiner Spark-Anwendung eine Standardkonfiguration definiert, die in @ versteckt issrc/main/resources/reference.conf. Ich benutzeConfigFactory.load(), um die Konfiguration zu erhalten. Wenn ich die Anwendung mit @ starspark-submit es ...