Suchergebnisse für Anfrage "spark-dataframe"
So speichern / fügen Sie jeden DStream in eine permanente Tabelle ein
Ich habe ein Problem mit "Spark Streaming" bezüglich des Einfügens von Output Dstream in ein permanent SQL-Tabelle. Ich möchte jeden Ausgabe-DStream (der aus einem einzelnen Stapel stammt, der Prozesse auslöst) in eine eindeutige ...
Ist die Abfrage gegen einen auf CSV basierenden Spark-DataFrame schneller als gegen einen auf Parquet basierenden?
Ich muss eine CSV-Datei von HDFS mit Spark in @ ladeDataFrame. Ich habe mich gefragt, ob es eine "Leistungsverbesserung" (Abfragegeschwindigkeit) von einem mit einer CSV-Datei gesicherten DataFrame gegenüber einem mit einer ...
Spark DataFrame: behält groupBy nach orderBy diese Reihenfolge bei?
Ich habe einen Spark 2.0-Datenrahmenexample mit der folgenden Struktur: id, hour, count id1, 0, 12 id1, 1, 55 .. id1, 23, 44 id2, 0, 12 id2, 1, 89 .. id2, 23, 34 etc. Es enthält 24 Einträge für jede ID (einen für jede Stunde des Tages) und wird ...
Spark 2.0 fehlende Funken impliziert
Mit Spark 2.0 sehe ich, dass es möglich ist, einen Datenrahmen von Zeilen in einen Datenrahmen von Fallklassen umzuwandeln. Wenn ich das versuche, werde ich mit einer Nachricht begrüßt, die besagt, dass ich @ importieren solspark.implicits._. ...
Apache Funke Umgang mit case Aussagen
Ich beschäftige mich mit der Umwandlung von SQL-Code in PySpark-Code und bin auf einige SQL-Anweisungen gestoßen. Ich weiß nicht, wie ich mit Fallaussagen im Pyspark umgehen soll. Ich plane, ein RDD zu erstellen und dann rdd.map zu verwenden und ...
Spark RDD zu DataFrame Python
Ich versuche, die Spark-RDD in einen DataFrame zu konvertieren. Ich habe die Dokumentation und das Beispiel gesehen, in denen das Schema an @ übergeben wirsqlContext.CreateDataFrame(rdd,schema) Funktion. Aber ich habe 38 Spalten oder Felder und ...
Wie schalte ich die wissenschaftliche Notation im Pyspark aus?
Als Ergebnis einer Aggregation habe ich folgenden Sparkdataframe gefunden: ------------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----------------+-----------------+ | 20569| -3322960.0| ...
PySpark Wie man CSV in Dataframe einliest und manipuliert
Ich bin ein Neuling in Pyspark und versuche, damit einen großen Datensatz zu verarbeiten, der als CSV-Datei gespeichert wird. Ich möchte CSV-Dateien in Spark-Datenrahmen einlesen, einige Spalten löschen und neue Spalten hinzufügen. Wie soll ich ...
Pyspark dataframe LIKE operator
Was ist das Äquivalent in Pyspark für den LIKE-Operator? Zum Beispiel würde ich gerne machen: SELECT * FROM table WHERE column LIKE "*somestring*";nach so etwas einfachem suchen (aber das funktioniert ...
Warum liest Apache Spark unnötige Parkettspalten in verschachtelten Strukturen?
as Team von @My erstellt einen ETL-Prozess, um mit Spark unbegrenzte Textdateien in einen Parkett-basierten "Datensee" zu laden. Eine der Versprechungen des Parquet-Spaltenspeichers ist, dass eine Abfrage nur die erforderlichen "Spaltenstreifen" ...