Suchergebnisse für Anfrage "apache-spark-sql"
Spark SQL - Laden von csv / psv-Dateien mit einigen fehlerhaften Datensätzen
Wir laden mit Spark Hierarchien von Dateiverzeichnissen und konvertieren sie nach Parquet. In Hunderten von durch Pipes getrennten Dateien befinden sich zehn Gigabyte. Einige sind selbst ziemlich groß. Jede 100. Datei hat beispielsweise eine ...
pyspark Spalten in mehrere Spalten ohne Pandas aufteilen
Meine Frage ist, wie man eine Spalte in mehrere Spalten aufteilt. Ich weiß nicht warumdf.toPandas() funktioniert nicht Zum Beispiel möchte ich 'df_test' in 'df_test2' ändern. Ich habe viele Beispiele mit dem Pandas-Modul gesehen. Gibt es eine ...
Wie konvertiere ich eine WrappedArray-Spalte im Spark-Datenframe in Strings?
Ich versuche, eine Spalte, die Array [String] enthält, in String zu konvertieren, aber ich erhalte durchweg diesen Fehler org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 78.0 failed 4 times, most recent ...
Spark SQL - Daten mit JDBC mithilfe der SQL-Anweisung und nicht mit dem Tabellennamen laden
Ich denke, ich vermisse etwas, kann aber nicht herausfinden, was. Ich möchte Daten mit SQLContext und JDBC mit einer bestimmten SQL-Anweisung wie @ lade select top 1000 text from table1 with (nolock) where threadid in ( select distinct id from ...
Funktion auf jede Zeile von Spark DataFrame @ anwend
Ich bin auf Spark 1.3. Ich möchte auf jede Zeile eines Datenrahmens eine Funktion anwenden. Diese Funktion durchsucht jede Spalte der Zeile und gibt eine Liste der Hashes zurück. dataframe.map(row => row.toSeq.map(col => col.hashCode))Ich ...
DataFrame-PartitionDurch eine einzelne Parkettdatei (pro Partition)
Ich möchte meine Daten reparieren / zusammenführen, sodass sie in einer Parquet-Datei pro Partition gespeichert werden. Ich möchte auch die Spark-SQL-partitionBy-API verwenden. Also könnte ich das so ...
Wie wende ich eine Funktion auf eine Spalte eines Spark-DataFrames an?
Nehmen wir an, wir haben einen Spark DataFrame df.getClass Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFramemit dem folgenden Schema df.printSchema root |-- rawFV: string (nullable = true) |-- tk: array ...
So berechnen Sie die kumulative Summe mit sqlContext
Ich weiß, wir können @ verwendFensterfunktion in pyspark [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , um die kumulative Summe zu berechnen. Windows wird jedoch nur in HiveContext und nicht in ...
Warum läuft mein Spark langsamer als reines Python? Leistungsvergleic
Spark Neuling hier. Ich habe versucht, mit Spark eine Pandas-Aktion für meinen Datenrahmen auszuführen, und überraschenderweise ist sie langsamer als reines Python (d. H. Mit dem Pandas-Paket in Python). Folgendes habe ich getan: 1) In ...
Spark Dataframes UPSERT an Postgres-Tabelle
Ich verwende Apache Spark DataFrames, um zwei Datenquellen zu verbinden und das Ergebnis als anderen DataFrame abzurufen. Ich möchte das Ergebnis in eine andere Postgres-Tabelle schreiben. Ich sehe diese Option: myDataFrame.write.jdbc(url, ...