Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Spark :: KMeans ruft takeSample () zweimal auf?

Ich habe viele Daten und habe mit Partitionen der Kardinalität [20k, 200k +] experimentiert. Ich nenne es so: from pyspark.mllib.clustering import KMeans, KMeansModel C0 = KMeans.train(first, 8192, initializationMode='random', ...

2 die antwort

Running Garn mit Funken funktioniert nicht mit Java 8

Ich habe einen Cluster mit 1 Master und 6 Slaves, der die vorgefertigte Version von Hadoop 2.6.0 und Spark 1.6.2 verwendet. Ich lief Hadoop MR und Spark-Jobs ohne Probleme mit OpenJDK 7 auf allen Knoten installiert. Als ich jedoch openjdk 7 auf ...

2 die antwort

Warum wird SparkSession für eine Aktion zweimal ausgeführt?

Neues Upgrade auf Spark 2.0 und merkwürdiges Verhalten beim Erstellen eines einfachen Datasets aus JSON-Zeichenfolgen. Hier ist ein einfacher Testfall: SparkSession spark ...

TOP-Veröffentlichungen

2 die antwort

Wie verteile ich meine Daten auf die Partitionen?

Bearbeite: Die Antwort hilft, aber ich habe meine Lösung beschrieben in: memoryOverhead Problem in Spark [https://gsamaras.wordpress.com/code/memoryoverhead-issue-in-spark/]. Ich habe eine RDD mit 202092-Partitionen, die einen von anderen ...

4 die antwort

Was ist der Unterschied zwischen Spark ML- und MLLIB-Paketen

Ich habe bemerkt, es gibt zweiLinearRegressionModel Klassen in SparkML, eine in ML und eine andere inMLLib package. Diese beiden sind ganz unterschiedlich implementiert - z. der vonMLLib implementiertSerializable, der andere nicht. Wie ame ...

6 die antwort

Wie konvertiere ich eine Spalte von Arrays von Strings in Strings?

Ich habe eine Spalte vom Typarray < string > in Spark-Tabellen. Ich benutze SQL, um diese Spark-Tabellen abzufragen. Ich wollte das @ konvertierarray < string >instring. Wenn die folgende Syntax verwendet wurde: select cast(rate_plan_code as ...

2 die antwort

Spark braucht HDFS

Hallo kann mir jemand erklären, braucht Apache 'Spark Standalone' HDFS? Wenn erforderlich, wie Spark die HDFS-Blockgröße während der Ausführung der Spark-Anwendung verwendet. Ich meine, ich versuche zu verstehen, welche Rolle HDFS während der ...

2 die antwort

Spark: Shuffle-Operation führt zu langer GC-Pause

Ich renneSpark 2 und versuche, um 5 Terabyte Json zu mischen. Ich habe beim Mischen eines @s sehr lange Pausen bei der Garbage CollectioDataset: val operations = spark.read.json(inPath).as[MyClass] operations.repartition(partitions, ...

2 die antwort

Was ist spark.driver.maxResultSize?

Das ref [http://spark.apache.org/docs/latest/configuration.html] sagt: Begrenzung der Gesamtgröße der serialisierten Ergebnisse aller Partitionen für jede Spark-Aktion (z. B. Sammeln). Sollte mindestens 1M oder 0 für unbegrenzt sein. Aufträge ...

2 die antwort

Spark - WÄHLEN SIE WO oder filtern?

Was ist der Unterschied zwischen der Auswahl mit einer where-Klausel und der Filterung in Spark? Gibt es Anwendungsfälle, bei denen einer geeigneter ist als der andere? Wann verwende ich DataFrame newdf = ...