Suchergebnisse für Anfrage "apache-spark-sql"

6 die antwort

Retieve top n in jeder Gruppe eines DataFrame in pyspark

Es gibt einen DataFrame in Pyspark mit folgenden Daten: user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2 2 user_2 object_2 6Was ich erwarte, gibt 2 Datensätze in jeder Gruppe mit ...

2 die antwort

Wie verbinde ich HBase und Spark mit Python?

Ich habe eine peinlich parallele Aufgabe, für die ich Spark verwende, um die Berechnungen zu verteilen. Diese Berechnungen sind in Python und ich benutze PySpark, um die Daten zu lesen und vorzuverarbeiten. Die Eingabedaten für meine Aufgabe ...

18 die antwort

Spezifische Partitionen in der Spark-Dataframe-Schreibmethode überschreiben

Ich möchte bestimmte Partitionen überschreiben, anstatt alle in Spark. Ich versuche den folgenden Befehl: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')wobei df ein Datenrahmen ist, dessen inkrementelle Daten ...

TOP-Veröffentlichungen

2 die antwort

Was ist ein effizienter Weg, um nach Spalten zu partitionieren, aber eine feste Partitionsanzahl beizubehalten?

Was ist der beste Weg, um die Daten nach einem Feld in vordefinierte Partitionszahlen zu unterteilen? Ich partitioniere derzeit die Daten durch Angabe von partionCount = 600. Es wurde festgestellt, dass die Anzahl 600 die beste Abfrageleistung ...

2 die antwort

Spark 2.0: Relativer Pfad in absoluter URI (Spark-Warehouse)

Ich versuche, von Spark 1.6.1 auf Spark 2.0.0 zu migrieren, und es wird ein seltsamer Fehler angezeigt, wenn ich versuche, eine CSV-Datei in SparkSQL einzulesen. Wenn ich zuvor eine Datei von einer lokalen Festplatte in Pyspark gelesen habe, ...

6 die antwort

Lesen Sie aus einer Hive-Tabelle und schreiben Sie mit spark sql @ darauf zurüc

Ich lese eine Hive-Tabelle mit Spark SQL und ordne sie einer Scala zu. val x = sqlContext.sql("select * from some_table")Dann bearbeite ich den Datenrahmen x und erstelle schließlich einen Datenrahmen y, der das genaue Schema wie die Tabelle ...

4 die antwort

Mehrzeiliges JSON in Apache Spark lesen

Ich habe versucht, eine JSON-Datei als kleine Datenbank zu verwenden. Nachdem ich eine Vorlagentabelle auf DataFrame erstellt hatte, fragte ich sie mit SQL ab und bekam eine Ausnahme. Hier ist mein Code: val df = ...

2 die antwort

Lesen mehrerer Dateien von S3 in Spark nach Datumszeitraum

BeschreibunIch habe eine Anwendung, die Daten an AWS Kinesis Firehose sendet und diese Daten in meinen S3-Bucket schreibt. Firehose verwendet das Format "JJJJ / MM / TT / HH", um die Dateien zu schreiben. Wie in diesem Beispiel S3 ...

8 die antwort

Wie kann eine Struktur in einem Spark-Datenrahmen reduziert werden?

Ich habe einen Datenrahmen mit der folgenden Struktur: |-- data: struct (nullable = true) | |-- id: long (nullable = true) | |-- keyNote: struct (nullable = true) | | |-- key: string (nullable = true) | | |-- note: string (nullable = true) | |-- ...

4 die antwort

argmax in Spark DataFrames: Abrufen der Zeile mit dem Maximalwert

Einen Funken DataFrame @ gebdf, Ich möchte den Maximalwert in einer bestimmten numerischen Spalte finden'values' und erhalte die Zeile (n), in der / denen dieser Wert erreicht wurde. Das kann ich natürlich machen: # it doesn't matter if I use ...