Suchergebnisse für Anfrage "apache-spark"
Spark :: KMeans ruft takeSample () zweimal auf?
Ich habe viele Daten und habe mit Partitionen der Kardinalität [20k, 200k +] experimentiert. Ich nenne es so: from pyspark.mllib.clustering import KMeans, KMeansModel C0 = KMeans.train(first, 8192, initializationMode='random', ...
Running Garn mit Funken funktioniert nicht mit Java 8
Ich habe einen Cluster mit 1 Master und 6 Slaves, der die vorgefertigte Version von Hadoop 2.6.0 und Spark 1.6.2 verwendet. Ich lief Hadoop MR und Spark-Jobs ohne Probleme mit OpenJDK 7 auf allen Knoten installiert. Als ich jedoch openjdk 7 auf ...
Warum wird SparkSession für eine Aktion zweimal ausgeführt?
Neues Upgrade auf Spark 2.0 und merkwürdiges Verhalten beim Erstellen eines einfachen Datasets aus JSON-Zeichenfolgen. Hier ist ein einfacher Testfall: SparkSession spark ...
Wie verteile ich meine Daten auf die Partitionen?
Bearbeite: Die Antwort hilft, aber ich habe meine Lösung beschrieben in: memoryOverhead Problem in Spark [https://gsamaras.wordpress.com/code/memoryoverhead-issue-in-spark/]. Ich habe eine RDD mit 202092-Partitionen, die einen von anderen ...
Was ist der Unterschied zwischen Spark ML- und MLLIB-Paketen
Ich habe bemerkt, es gibt zweiLinearRegressionModel Klassen in SparkML, eine in ML und eine andere inMLLib package. Diese beiden sind ganz unterschiedlich implementiert - z. der vonMLLib implementiertSerializable, der andere nicht. Wie ame ...
Wie konvertiere ich eine Spalte von Arrays von Strings in Strings?
Ich habe eine Spalte vom Typarray < string > in Spark-Tabellen. Ich benutze SQL, um diese Spark-Tabellen abzufragen. Ich wollte das @ konvertierarray < string >instring. Wenn die folgende Syntax verwendet wurde: select cast(rate_plan_code as ...
Spark braucht HDFS
Hallo kann mir jemand erklären, braucht Apache 'Spark Standalone' HDFS? Wenn erforderlich, wie Spark die HDFS-Blockgröße während der Ausführung der Spark-Anwendung verwendet. Ich meine, ich versuche zu verstehen, welche Rolle HDFS während der ...
Spark: Shuffle-Operation führt zu langer GC-Pause
Ich renneSpark 2 und versuche, um 5 Terabyte Json zu mischen. Ich habe beim Mischen eines @s sehr lange Pausen bei der Garbage CollectioDataset: val operations = spark.read.json(inPath).as[MyClass] operations.repartition(partitions, ...
Was ist spark.driver.maxResultSize?
Das ref [http://spark.apache.org/docs/latest/configuration.html] sagt: Begrenzung der Gesamtgröße der serialisierten Ergebnisse aller Partitionen für jede Spark-Aktion (z. B. Sammeln). Sollte mindestens 1M oder 0 für unbegrenzt sein. Aufträge ...
Spark - WÄHLEN SIE WO oder filtern?
Was ist der Unterschied zwischen der Auswahl mit einer where-Klausel und der Filterung in Spark? Gibt es Anwendungsfälle, bei denen einer geeigneter ist als der andere? Wann verwende ich DataFrame newdf = ...