Suchergebnisse für Anfrage "apache-spark"
spark + sbt-assembly: "deduplizieren: Unterschiedliche Dateiinhalte im Folgenden gefunden"
Ich habe eine Funkenanwendung ausgeführt und möchte die Testklassen in das Fettglas packen. Was seltsam ist, ist, dass ich "sbt assembly" erfolgreich ausgeführt habe, was jedoch fehlgeschlagen ist, als ich "sbt test: assembly" ausgeführt ...
Hadoop "Kann die native-hadoop-Bibliothek für Ihre Plattform nicht laden" Fehler bei docker-spark?
Ich benutze docker-spark [https://github.com/sequenceiq/docker-spark]. Nach dem Start vonspark-shell, es gibt aus: 15/05/21 04:28:22 DEBUG NativeCodeLoader: Failed to load native-hadoop with error: java.lang.UnsatisfiedLinkError:no hadoop in ...
Wie verwende ich Spark SQL DataFrame mit flatMap?
Ich verwende die Spark Scala-API. Ich habe einen Spark SQL DataFrame (aus einer Avro-Datei gelesen) mit dem folgenden Schema: root |-- ids: array (nullable = true) | |-- element: map (containsNull = true) | | |-- key: integer | | |-- value: ...
Auftrag nach Wert in Spark-PaarRDD von (Schlüssel, Wert), wobei der Wert von spark-sql stammt
Ich habe eine Karte wie diese erstellt - val b = a.map(x => (x(0), x) )Hier ist b vom Typ org.apache.spark.rdd.RDD[(Any, org.apache.spark.sql.Row)] Wie kann ich die PairRDD in jedem Schlüssel mithilfe eines Felds aus der ...
Replace Bigrams basierend auf ihrer Frequenz in Scala und Spark
Ich möchte alle Bigramme, deren Frequenz größer als ein Schwellenwert ist, durch dieses Muster ersetzen.(word1.concat("-").concat(word2)), und ich habe versucht: import org.apache.spark.{SparkConf, SparkContext} object replace { def main(args: ...
Spark wenn Union viele RDD Stapelüberlauffehler auslöst
Wenn ich "++" verwende, um viele RDDs zu kombinieren, tritt ein Fehler-Stack-Over-Flow-Fehler auf. Spark Version 1.3.1 Umgebung: Woll-Client. --treiber-speicher 8G Die Anzahl der RDDs beträgt mehr als 4000. Jede RDD wird aus einer ...
Ist die Auswahl der geschachtelten Spark DataFrame-Struktur eingeschränkt?
Ich habe eine JSON-Datei mit einigen Daten. Ich kann daraus einen DataFrame erstellen. Das Schema für einen bestimmten Teil davon, an dem ich interessiert bin, sieht folgendermaßen aus: val json: DataFrame = ...
Ist es möglich, die aktuellen Einstellungen für den Spark-Kontext in PySpark abzurufen?
Ich versuche, den Pfad zu @ zu bekommspark.worker.dir für das aktuellesparkcontext. Wenn ich es explizit als @ setconfig param, Ich kann es wieder aus @ lesSparkConf, aber gibt es trotzdem Zugriff auf das kompletteconfig (einschließlich aller ...
Adding new Spark Worker auf AWS EC2 - Zugriffsfehler
Ich habe das vorhandene oeprating Spark-Cluster, das mit @ gestartet wurdspark-ec2 Skript. Ich versuche, einen neuen Slave hinzuzufügen, indem ich den Anweisungen folge: Stoppen Sie den Cluster Auf der AWS-Konsole wird auf einem der Slaves "eher ...
So aktualisieren Sie Spark MatrixFactorizationModel für ALS
Ich baue ein einfaches Empfehlungssystem für die MovieLens DB, inspiriert ...