Suchergebnisse für Anfrage "apache-spark-sql"

2 die antwort

Spark SQL - Laden von csv / psv-Dateien mit einigen fehlerhaften Datensätzen

Wir laden mit Spark Hierarchien von Dateiverzeichnissen und konvertieren sie nach Parquet. In Hunderten von durch Pipes getrennten Dateien befinden sich zehn Gigabyte. Einige sind selbst ziemlich groß. Jede 100. Datei hat beispielsweise eine ...

2 die antwort

pyspark Spalten in mehrere Spalten ohne Pandas aufteilen

Meine Frage ist, wie man eine Spalte in mehrere Spalten aufteilt. Ich weiß nicht warumdf.toPandas() funktioniert nicht Zum Beispiel möchte ich 'df_test' in 'df_test2' ändern. Ich habe viele Beispiele mit dem Pandas-Modul gesehen. Gibt es eine ...

4 die antwort

Wie konvertiere ich eine WrappedArray-Spalte im Spark-Datenframe in Strings?

Ich versuche, eine Spalte, die Array [String] enthält, in String zu konvertieren, aber ich erhalte durchweg diesen Fehler org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 78.0 failed 4 times, most recent ...

TOP-Veröffentlichungen

4 die antwort

Spark SQL - Daten mit JDBC mithilfe der SQL-Anweisung und nicht mit dem Tabellennamen laden

Ich denke, ich vermisse etwas, kann aber nicht herausfinden, was. Ich möchte Daten mit SQLContext und JDBC mit einer bestimmten SQL-Anweisung wie @ lade select top 1000 text from table1 with (nolock) where threadid in ( select distinct id from ...

2 die antwort

Funktion auf jede Zeile von Spark DataFrame @ anwend

Ich bin auf Spark 1.3. Ich möchte auf jede Zeile eines Datenrahmens eine Funktion anwenden. Diese Funktion durchsucht jede Spalte der Zeile und gibt eine Liste der Hashes zurück. dataframe.map(row => row.toSeq.map(col => col.hashCode))Ich ...

4 die antwort

DataFrame-PartitionDurch eine einzelne Parkettdatei (pro Partition)

Ich möchte meine Daten reparieren / zusammenführen, sodass sie in einer Parquet-Datei pro Partition gespeichert werden. Ich möchte auch die Spark-SQL-partitionBy-API verwenden. Also könnte ich das so ...

4 die antwort

Wie wende ich eine Funktion auf eine Spalte eines Spark-DataFrames an?

Nehmen wir an, wir haben einen Spark DataFrame df.getClass Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFramemit dem folgenden Schema df.printSchema root |-- rawFV: string (nullable = true) |-- tk: array ...

8 die antwort

So berechnen Sie die kumulative Summe mit sqlContext

Ich weiß, wir können @ verwendFensterfunktion in pyspark [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , um die kumulative Summe zu berechnen. Windows wird jedoch nur in HiveContext und nicht in ...

2 die antwort

Warum läuft mein Spark langsamer als reines Python? Leistungsvergleic

Spark Neuling hier. Ich habe versucht, mit Spark eine Pandas-Aktion für meinen Datenrahmen auszuführen, und überraschenderweise ist sie langsamer als reines Python (d. H. Mit dem Pandas-Paket in Python). Folgendes habe ich getan: 1) In ...

8 die antwort

Spark Dataframes UPSERT an Postgres-Tabelle

Ich verwende Apache Spark DataFrames, um zwei Datenquellen zu verbinden und das Ergebnis als anderen DataFrame abzurufen. Ich möchte das Ergebnis in eine andere Postgres-Tabelle schreiben. Ich sehe diese Option: myDataFrame.write.jdbc(url, ...