Suchergebnisse für Anfrage "apache-spark"

Ich verstehe nicht ganzspark.task.cpus Parameter. Mir scheint, dass eine "Aufgabe" einem "Thread" oder einem "Prozess" innerhalb des Executors entspricht. Angenommen, ich setze "spark.task.cpus" auf 2. Wie kann ein Thread zwei CPUs gleichzeitig ...

multiple-columns pyspark hadoop python

6 die antwort

Wie werden Spaltenüberschriften in Spark zugewiesen und verwendet?

Ich lese einen Datensatz wie unten. f = sc.textFile("s3://test/abc.csv")Meine Datei enthält über 50 Felder und ich möchte Spaltenüberschriften für jedes der Felder zuweisen, auf die später in meinem Skript verwiesen wird. Wie mache ich das in ...

java scala hadoop2

6 die antwort

spark in Windows fehlgeschlagen: <Konsole>: 16: Fehler: nicht gefunden: Wert sqlContext

Ich installiere spark unter Windows, aber es konnte nicht ausgeführt werden. Der folgende Fehler wird angezeigt: <console>:16: error: not found: value sqlContext import sqlContext.implicits._ ^ <console>:16: error: not found: value sqlContext ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

hadoop hdfs decompression java

4 die antwort

Lesen Sie ganze Textdateien aus einer Komprimierung in Spark

Ich habe das folgende Problem: Angenommen, ich habe ein Verzeichnis mit komprimierten Verzeichnissen, die mehrere auf HDFS gespeicherte Dateien enthalten. Ich möchte eine RDD erstellen, die aus einigen Objekten des Typs T besteht, d. context = ...

dataframe pyspark spark-dataframe

4 die antwort

spark: So erstellen Sie ein dropDuplicate für einen Datenframe unter Beibehaltung der Zeile mit dem höchsten Zeitstempel [duplizieren]

Diese Frage hat hier bereits eine Antwort: Maximale Zeile pro Gruppe in Spark DataFrame finden [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 Antworten Ich habe einen Anwendungsfall, in dem ich doppelte Zeilen eines ...

apache-kafka spark-streaming

4 die antwort

get Thema von kafka Nachricht in Funken

In unserem Spark-Streaming-Job lesen wir Nachrichten im Streaming von kafka. azu verwenden wir dasKafkaUtils.createDirectStream API, die @ zurückgiJavaPairInputDStreamfrom. Die Nachrichten werden von kafka (aus drei Themen - test1, test2, ...

python-3.x pyspark

4 die antwort

Was bedeutet die Ausnahme: Die Zufälligkeit des Hashs von Strings sollte im Pyspark über PYTHONHASHSEED deaktiviert werden?

Ich versuche, ein Wörterbuch aus einer Liste in Pyspark zu erstellen. Ich habe die folgende Liste von Listen: rawPositions Gibt [[1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', 3.0, 3904.125, 390412.5], [1009794, 'LPF6 Comdty', 'BC22', ...

scala

6 die antwort

Warum inkonsistente Ergebnisse mit Subtraktion in reduzieren?

Folgendes angegeben: val rdd = List(1,2,3)Ich nahm an, dassrdd.reduce((x,y) => (x - y)) würden zurückkehren-4 (d. h.(1-2)-3=-4), aber es gab2. Warum

spark-dataframe scala apache-spark-sql

2 die antwort

Wie ändere ich einen Spark-Datenrahmen mit einer komplexen verschachtelten Struktur?

Ich habe eine komplexe DataFrame-Struktur und möchte eine Spalte einfach auf null setzen. Ich habe implizite Klassen erstellt, die Funktionen verknüpfen und auf einfache Weise 2D-DataFrame-Strukturen ansprechen, aber sobald der DataFrame mit ...

serialization scala

2 die antwort

Spark: Task für UDF in DataFrame nicht serialisierbar

Ich bekommeorg.apache.spark.SparkException: Task not serializable Wenn ich versuche, Folgendes auf Spark 1.4.1 auszuführen: import java.sql.{Date, Timestamp} import java.text.SimpleDateFormat object ConversionUtils { val iso8601 = ...

Seite 82 von 113

80 818283 84

Suchergebnisse für Anfrage "apache-spark"

Anzahl der CPUs pro Task in Spark

Wie werden Spaltenüberschriften in Spark zugewiesen und verwendet?

spark in Windows fehlgeschlagen: <Konsole>: 16: Fehler: nicht gefunden: Wert sqlContext

Beliebte Schlagwörter

TOP-Veröffentlichungen

Lesen Sie ganze Textdateien aus einer Komprimierung in Spark

spark: So erstellen Sie ein dropDuplicate für einen Datenframe unter Beibehaltung der Zeile mit dem höchsten Zeitstempel [duplizieren]

get Thema von kafka Nachricht in Funken

Was bedeutet die Ausnahme: Die Zufälligkeit des Hashs von Strings sollte im Pyspark über PYTHONHASHSEED deaktiviert werden?

Warum inkonsistente Ergebnisse mit Subtraktion in reduzieren?

Wie ändere ich einen Spark-Datenrahmen mit einer komplexen verschachtelten Struktur?

Spark: Task für UDF in DataFrame nicht serialisierbar

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "apache-spark"

Beliebte Schlagwörter

TOP-Veröffentlichungen