Suchergebnisse für Anfrage "apache-spark-sql"

Es gibt einen DataFrame in Pyspark mit folgenden Daten: user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2 2 user_2 object_2 6Was ich erwarte, gibt 2 Datensätze in jeder Gruppe mit ...

python apache-spark hbase pyspark

2 die antwort

Wie verbinde ich HBase und Spark mit Python?

Ich habe eine peinlich parallele Aufgabe, für die ich Spark verwende, um die Berechnungen zu verteilen. Diese Berechnungen sind in Python und ich benutze PySpark, um die Daten zu lesen und vorzuverarbeiten. Die Eingabedaten für meine Aufgabe ...

spark-dataframe apache-spark

18 die antwort

Spezifische Partitionen in der Spark-Dataframe-Schreibmethode überschreiben

Ich möchte bestimmte Partitionen überschreiben, anstatt alle in Spark. Ich versuche den folgenden Befehl: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')wobei df ein Datenrahmen ist, dessen inkrementelle Daten ...

Beliebte Schlagwörter

eclipse-plugin exif aop filestream sfinae minesweeper myfaces cell jodatime dialog dalvik callstack public c++-cli scala-java-interop ps1 subclass elmah comments japplet

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

apache-spark

2 die antwort

Was ist ein effizienter Weg, um nach Spalten zu partitionieren, aber eine feste Partitionsanzahl beizubehalten?

Was ist der beste Weg, um die Daten nach einem Feld in vordefinierte Partitionszahlen zu unterteilen? Ich partitioniere derzeit die Daten durch Angabe von partionCount = 600. Es wurde festgestellt, dass die Anzahl 600 die beste Abfrageleistung ...

pyspark apache-spark windows pyspark-sql

2 die antwort

Spark 2.0: Relativer Pfad in absoluter URI (Spark-Warehouse)

Ich versuche, von Spark 1.6.1 auf Spark 2.0.0 zu migrieren, und es wird ein seltsamer Fehler angezeigt, wenn ich versuche, eine CSV-Datei in SparkSQL einzulesen. Wenn ich zuvor eine Datei von einer lokalen Festplatte in Pyspark gelesen habe, ...

spark-dataframe apache-spark scala hadoop

6 die antwort

Lesen Sie aus einer Hive-Tabelle und schreiben Sie mit spark sql @ darauf zurüc

Ich lese eine Hive-Tabelle mit Spark SQL und ordne sie einer Scala zu. val x = sqlContext.sql("select * from some_table")Dann bearbeite ich den Datenrahmen x und erstelle schließlich einen Datenrahmen y, der das genaue Schema wie die Tabelle ...

apache-spark json

4 die antwort

Mehrzeiliges JSON in Apache Spark lesen

Ich habe versucht, eine JSON-Datei als kleine Datenbank zu verwenden. Nachdem ich eine Vorlagentabelle auf DataFrame erstellt hatte, fragte ich sie mit SQL ab und bekam eine Ausnahme. Hier ist mein Code: val df = ...

scala aws-sdk apache-spark amazon-s3

2 die antwort

Lesen mehrerer Dateien von S3 in Spark nach Datumszeitraum

BeschreibunIch habe eine Anwendung, die Daten an AWS Kinesis Firehose sendet und diese Daten in meinen S3-Bucket schreibt. Firehose verwendet das Format "JJJJ / MM / TT / HH", um die Dateien zu schreiben. Wie in diesem Beispiel S3 ...

java apache-spark

8 die antwort

Wie kann eine Struktur in einem Spark-Datenrahmen reduziert werden?

apache-spark

4 die antwort

argmax in Spark DataFrames: Abrufen der Zeile mit dem Maximalwert

Einen Funken DataFrame @ gebdf, Ich möchte den Maximalwert in einer bestimmten numerischen Spalte finden'values' und erhalte die Zeile (n), in der / denen dieser Wert erreicht wurde. Das kann ich natürlich machen: # it doesn't matter if I use ...

Seite 26 von 32

24 252627 28

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "apache-spark-sql"

Beliebte Schlagwörter

TOP-Veröffentlichungen