Suchergebnisse für Anfrage "apache-spark"
Wie Umgebungsvariablen im Cluster-Modus mit spark-submit @ an den Spark-Treiber übergeben werd
spark-submit ermöglicht die Konfiguration der Executor-Umgebungsvariablen mit--conf spark.executorEnv.FOO=bar, und die Spark-REST-API ermöglicht die Übergabe einiger Umgebungsvariablen mit demenvironmentVariables Feld. Leider habe ich nichts ...
LinearRegression scala.MatchError:
Ich erhalte einen scala.MatchError, wenn ich einen ParamGridBuilder in Spark 1.6.1 und 2.0 verwende. val paramGrid = new ParamGridBuilder() .addGrid(lr.regParam, Array(0.1, 0.01)) .addGrid(lr.fitIntercept) .addGrid(lr.elasticNetParam, Array(0.0, ...
Spark java.lang.StackOverflowError
Ich verwende spark, um den PageRank von Nutzerbewertungen zu berechnen, erhalte aber weiterhin Spark java.lang.StackOverflowError, wenn ich meinen Code auf einem großen Datensatz (40.000 Einträge) ausführe. Wenn Sie den Code für eine kleine ...
Spark - java.lang.ClassCastException: Instanz von java.lang.invoke.SerializedLambda kann nicht dem Feld org.apache.spark.api.java.JavaRDDLike @ zugewiesen werd
public class SparkDemo { @SuppressWarnings({ "resource" }) public static void main(String[] args) { SparkConf conf = new SparkConf().setAppName("Spark APP").setMaster("spark://xxx.xxx.xxx.xx:7077"); JavaSparkContext sc = ...
Transponiere Spalte zu Zeile mit Spark
Ich versuche, einige Spalten meiner Tabelle in Zeilen umzuwandeln. Ich benutze Python und Spark 1.5.0. Hier ist mein erster Tisch: +-----+-----+-----+-------+ | A |col_1|col_2|col_...| +-----+-------------------+ | 1 | 0.0| 0.6| ... | | 2 | ...
Wie werden die Vorkommen jedes einzelnen Werts für jede Spalte in einem Datenrahmen gezählt?
edf.select("x").distinct.show() zeigt die unterschiedlichen Werte, die in @ vorhanden six Spalte vonedf DataFrame. Gibt es eine effiziente Methode, um auch anzuzeigen, wie oft diese unterschiedlichen Werte im Datenrahmen vorkommen? (Zähle für ...
Vergleichen von zwei RDDs
Ich habe zwei RDD [Array [String]], nennen wir sie rdd1 und rdd2. Ich würde ein neues RDD erstellen, das nur die Einträge von rdd2 enthält, nicht in rdd1 (basierend auf einem Schlüssel). Ich verwende Spark auf Scala über Intellij. Ich habe rdd1 ...
Wie man Dateien im HDFS-Verzeichnis auflistet
Wie zähle ich Dateien im HDFS-Verzeichnis auf? Dies dient zum Auflisten von Dateien im Apache Spark-Cluster mit Scala. Ich sehe, dass es die Option sc.textfile () gibt, die aber auch den Inhalt liest. Ich möchte nur Dateinamen lesen. Ich habe ...
Wie führe ich mithilfe von PySpark parallel unabhängige Transformationen durch?
Ich versuche, mit PySpark 2 Funktionen auszuführen, die vollständig unabhängige Transformationen auf einer einzelnen RDD gleichzeitig ausführen. Was sind einige Methoden, um dasselbe zu tun? def doXTransforms(sampleRDD): (X transforms) def ...
Typesafe Config in Spark
Ich habe in meiner Spark-Anwendung eine Standardkonfiguration definiert, die in @ versteckt issrc/main/resources/reference.conf. Ich benutzeConfigFactory.load(), um die Konfiguration zu erhalten. Wenn ich die Anwendung mit @ starspark-submit es ...