Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Stackoverflow aufgrund langer RDD-Linie

Ich habe Tausende kleiner Dateien in HDFS. Für die Verarbeitung einer etwas kleineren Teilmenge von Dateien (wiederum in Tausendern) enthält fileList eine Liste der zu verarbeitenden Dateipfade. // fileList == list of filepaths in HDFS var ...

18 die antwort

Ursache: FEHLER XSDB6: Möglicherweise hat eine andere Derby-Instanz die Datenbank bereits gebootet

Ich versuche SparkSQL auszuführen: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) Aber der Fehler, den ich bekomme, ist unten: ... 125 more Caused by: java.sql.SQLException: Another instance of Derby may have already booted the ...

4 die antwort

Creating Binned Histogramme in Spark

Angenommen, ich habe einen Datenrahmen (df) (Pandas) oder RDD (Spark) mit den folgenden zwei Spalten: timestamp, data 12345.0 10 12346.0 12 In Pandas kann ich ziemlich einfach ein gruppiertes Histogramm mit verschiedenen Gruppierungslängen ...

TOP-Veröffentlichungen

4 die antwort

Pandas-artige Transformation gruppierter Daten in PySpark DataFrame

Wenn wir einen Pandas-Datenrahmen haben, der aus einer Spalte mit Kategorien und einer Spalte mit Werten besteht, können wir den Mittelwert in jeder Kategorie folgendermaßen entfernen: df["DemeanedValues"] = ...

2 die antwort

Spark SQL - Laden von csv / psv-Dateien mit einigen fehlerhaften Datensätzen

Wir laden mit Spark Hierarchien von Dateiverzeichnissen und konvertieren sie nach Parquet. In Hunderten von durch Pipes getrennten Dateien befinden sich zehn Gigabyte. Einige sind selbst ziemlich groß. Jede 100. Datei hat beispielsweise eine ...

2 die antwort

Spark: Selbstunterdrückung beim Schreiben großer Dateien in HDFS nicht zulässig

Ich schreibe mit spark eine große Datei in HDFS. Grundsätzlich war es meine Aufgabe, drei große Dateien zusammenzufügen, den Ergebnisdatenrahmen mit toJSON () in json zu konvertieren und ihn dann mit saveAsTextFile in HDFS zu speichern. Die ...

2 die antwort

pyspark Spalten in mehrere Spalten ohne Pandas aufteilen

Meine Frage ist, wie man eine Spalte in mehrere Spalten aufteilt. Ich weiß nicht warumdf.toPandas() funktioniert nicht Zum Beispiel möchte ich 'df_test' in 'df_test2' ändern. Ich habe viele Beispiele mit dem Pandas-Modul gesehen. Gibt es eine ...

16 die antwort

Was ist RDD im Funken

Definition sagt: RDD ist unveränderlich verteilte Sammlung von Objekten Ich verstehe nicht ganz was es bedeutet. Ist es wie Daten (partitionierte Objekte), die auf der Festplatte gespeichert sind? Wenn ja, wie kommt es, dass RDDs ...

4 die antwort

Wie konvertiere ich eine WrappedArray-Spalte im Spark-Datenframe in Strings?

Ich versuche, eine Spalte, die Array [String] enthält, in String zu konvertieren, aber ich erhalte durchweg diesen Fehler org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 78.0 failed 4 times, most recent ...

4 die antwort

Spark SQL - Daten mit JDBC mithilfe der SQL-Anweisung und nicht mit dem Tabellennamen laden

Ich denke, ich vermisse etwas, kann aber nicht herausfinden, was. Ich möchte Daten mit SQLContext und JDBC mit einer bestimmten SQL-Anweisung wie @ lade select top 1000 text from table1 with (nolock) where threadid in ( select distinct id from ...