Suchergebnisse für Anfrage "apache-spark"
Anzahl der CPUs pro Task in Spark
Ich verstehe nicht ganzspark.task.cpus Parameter. Mir scheint, dass eine "Aufgabe" einem "Thread" oder einem "Prozess" innerhalb des Executors entspricht. Angenommen, ich setze "spark.task.cpus" auf 2. Wie kann ein Thread zwei CPUs gleichzeitig ...
Wie werden Spaltenüberschriften in Spark zugewiesen und verwendet?
Ich lese einen Datensatz wie unten. f = sc.textFile("s3://test/abc.csv")Meine Datei enthält über 50 Felder und ich möchte Spaltenüberschriften für jedes der Felder zuweisen, auf die später in meinem Skript verwiesen wird. Wie mache ich das in ...
spark in Windows fehlgeschlagen: <Konsole>: 16: Fehler: nicht gefunden: Wert sqlContext
Ich installiere spark unter Windows, aber es konnte nicht ausgeführt werden. Der folgende Fehler wird angezeigt: <console>:16: error: not found: value sqlContext import sqlContext.implicits._ ^ <console>:16: error: not found: value sqlContext ...
Lesen Sie ganze Textdateien aus einer Komprimierung in Spark
Ich habe das folgende Problem: Angenommen, ich habe ein Verzeichnis mit komprimierten Verzeichnissen, die mehrere auf HDFS gespeicherte Dateien enthalten. Ich möchte eine RDD erstellen, die aus einigen Objekten des Typs T besteht, d. context = ...
spark: So erstellen Sie ein dropDuplicate für einen Datenframe unter Beibehaltung der Zeile mit dem höchsten Zeitstempel [duplizieren]
Diese Frage hat hier bereits eine Antwort: Maximale Zeile pro Gruppe in Spark DataFrame finden [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 Antworten Ich habe einen Anwendungsfall, in dem ich doppelte Zeilen eines ...
get Thema von kafka Nachricht in Funken
In unserem Spark-Streaming-Job lesen wir Nachrichten im Streaming von kafka. azu verwenden wir dasKafkaUtils.createDirectStream API, die @ zurückgiJavaPairInputDStreamfrom. Die Nachrichten werden von kafka (aus drei Themen - test1, test2, ...
Was bedeutet die Ausnahme: Die Zufälligkeit des Hashs von Strings sollte im Pyspark über PYTHONHASHSEED deaktiviert werden?
Ich versuche, ein Wörterbuch aus einer Liste in Pyspark zu erstellen. Ich habe die folgende Liste von Listen: rawPositions Gibt [[1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', 3.0, 3904.125, 390412.5], [1009794, 'LPF6 Comdty', 'BC22', ...
Warum inkonsistente Ergebnisse mit Subtraktion in reduzieren?
Folgendes angegeben: val rdd = List(1,2,3)Ich nahm an, dassrdd.reduce((x,y) => (x - y)) würden zurückkehren-4 (d. h.(1-2)-3=-4), aber es gab2. Warum
Wie ändere ich einen Spark-Datenrahmen mit einer komplexen verschachtelten Struktur?
Ich habe eine komplexe DataFrame-Struktur und möchte eine Spalte einfach auf null setzen. Ich habe implizite Klassen erstellt, die Funktionen verknüpfen und auf einfache Weise 2D-DataFrame-Strukturen ansprechen, aber sobald der DataFrame mit ...
Spark: Task für UDF in DataFrame nicht serialisierbar
Ich bekommeorg.apache.spark.SparkException: Task not serializable Wenn ich versuche, Folgendes auf Spark 1.4.1 auszuführen: import java.sql.{Date, Timestamp} import java.text.SimpleDateFormat object ConversionUtils { val iso8601 = ...