Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Anzahl der CPUs pro Task in Spark

Ich verstehe nicht ganzspark.task.cpus Parameter. Mir scheint, dass eine "Aufgabe" einem "Thread" oder einem "Prozess" innerhalb des Executors entspricht. Angenommen, ich setze "spark.task.cpus" auf 2. Wie kann ein Thread zwei CPUs gleichzeitig ...

6 die antwort

Wie werden Spaltenüberschriften in Spark zugewiesen und verwendet?

Ich lese einen Datensatz wie unten. f = sc.textFile("s3://test/abc.csv")Meine Datei enthält über 50 Felder und ich möchte Spaltenüberschriften für jedes der Felder zuweisen, auf die später in meinem Skript verwiesen wird. Wie mache ich das in ...

6 die antwort

spark in Windows fehlgeschlagen: <Konsole>: 16: Fehler: nicht gefunden: Wert sqlContext

Ich installiere spark unter Windows, aber es konnte nicht ausgeführt werden. Der folgende Fehler wird angezeigt: <console>:16: error: not found: value sqlContext import sqlContext.implicits._ ^ <console>:16: error: not found: value sqlContext ...

TOP-Veröffentlichungen

4 die antwort

Lesen Sie ganze Textdateien aus einer Komprimierung in Spark

Ich habe das folgende Problem: Angenommen, ich habe ein Verzeichnis mit komprimierten Verzeichnissen, die mehrere auf HDFS gespeicherte Dateien enthalten. Ich möchte eine RDD erstellen, die aus einigen Objekten des Typs T besteht, d. context = ...

4 die antwort

spark: So erstellen Sie ein dropDuplicate für einen Datenframe unter Beibehaltung der Zeile mit dem höchsten Zeitstempel [duplizieren]

Diese Frage hat hier bereits eine Antwort: Maximale Zeile pro Gruppe in Spark DataFrame finden [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 Antworten Ich habe einen Anwendungsfall, in dem ich doppelte Zeilen eines ...

4 die antwort

get Thema von kafka Nachricht in Funken

In unserem Spark-Streaming-Job lesen wir Nachrichten im Streaming von kafka. azu verwenden wir dasKafkaUtils.createDirectStream API, die @ zurückgiJavaPairInputDStreamfrom. Die Nachrichten werden von kafka (aus drei Themen - test1, test2, ...

4 die antwort

Was bedeutet die Ausnahme: Die Zufälligkeit des Hashs von Strings sollte im Pyspark über PYTHONHASHSEED deaktiviert werden?

Ich versuche, ein Wörterbuch aus einer Liste in Pyspark zu erstellen. Ich habe die folgende Liste von Listen: rawPositions Gibt [[1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', 3.0, 3904.125, 390412.5], [1009794, 'LPF6 Comdty', 'BC22', ...

6 die antwort

Warum inkonsistente Ergebnisse mit Subtraktion in reduzieren?

Folgendes angegeben: val rdd = List(1,2,3)Ich nahm an, dassrdd.reduce((x,y) => (x - y)) würden zurückkehren-4 (d. h.(1-2)-3=-4), aber es gab2. Warum

2 die antwort

Wie ändere ich einen Spark-Datenrahmen mit einer komplexen verschachtelten Struktur?

Ich habe eine komplexe DataFrame-Struktur und möchte eine Spalte einfach auf null setzen. Ich habe implizite Klassen erstellt, die Funktionen verknüpfen und auf einfache Weise 2D-DataFrame-Strukturen ansprechen, aber sobald der DataFrame mit ...

2 die antwort

Spark: Task für UDF in DataFrame nicht serialisierbar

Ich bekommeorg.apache.spark.SparkException: Task not serializable Wenn ich versuche, Folgendes auf Spark 1.4.1 auszuführen: import java.sql.{Date, Timestamp} import java.text.SimpleDateFormat object ConversionUtils { val iso8601 = ...