Suchergebnisse für Anfrage "parquet"

Ich habe das Schreiben getestet mit: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath) Allerdings, wenn ich die Partitionierung weglasse: df.write .mode(SaveMode.Append) .parquet(filePath)It führt 100x (!) ...

avro hive

2 die antwort

Hive-Tabelle erstellen, um Parkettdateien aus dem Parkett- / Avro-Schema zu lesen

Wir suchen nach einer Lösung, um eine externe Hive-Tabelle zum Lesen von Daten aus Parkettdateien nach einem Parkett- / Avro-Schema zu erstellen. auf andere Weise, wie man eine Hive-Tabelle aus einem Parkett- / Avro-Schema generiert? Vielen Dank :

csv apache-spark apache-spark-sql

2 die antwort

Spark SQL - Laden von csv / psv-Dateien mit einigen fehlerhaften Datensätzen

Wir laden mit Spark Hierarchien von Dateiverzeichnissen und konvertieren sie nach Parquet. In Hunderten von durch Pipes getrennten Dateien befinden sich zehn Gigabyte. Einige sind selbst ziemlich groß. Jede 100. Datei hat beispielsweise eine ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

apache-spark append scala

4 die antwort

Neue Daten an partitionierte Parkettdateien anhängen

Ich schreibe einen ETL-Prozess, in dem ich stündliche Protokolldateien lesen, die Daten partitionieren und speichern muss. Ich benutze Spark (in Databricks). Die Protokolldateien sind CSV-Dateien, daher lese ich sie und wende ein Schema an. ...

java hadoop apache-spark-sql apache-spark

10 die antwort

Spark-Ausnahme: Task beim Schreiben von Zeilen fehlgeschlagen

Ich lese Textdateien und konvertiere sie in Parkettdateien. Ich mache es mit Spark-Code. Aber wenn ich versuche, den Code auszuführen, erhalte ich folgende Ausnahme org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 ...

hdfs hadoop avro file

6 die antwort

Was sind die Vor- und Nachteile des Parkettformats im Vergleich zu anderen Formaten?

Eigenschaften von Apache Parkett sind: SelbstbeschreibendColumnar Format SprachunabhängigIm Vergleich zu Avro, Sequence Files, RC File etc. möchte ich einen Überblick über die Formate. Ich habe schon gelesen:Wie Impala mit Hadoop-Dateiformaten ...

apache-spark amazon-s3 scala apache-spark-sql

4 die antwort

Die Verwendung von Spark zum Schreiben einer Parkettdatei in s3 über s3a ist sehr langsam

Ich versuche ein @ zu schreibparquet file out toAmazon S3 usingSpark 1.6.1. Der kleineparquet das ich generiere ist~2GB einmal geschrieben, es sind also nicht so viele Daten. Ich versuche zu beweisen,Sparkout als Plattform, die ich ...

pyspark

6 die antwort

Lesen von Parkettdateien aus mehreren Verzeichnissen in Pyspark

Ich muss Parkettdateien von mehreren Pfaden lesen, die keine übergeordneten oder untergeordneten Verzeichnisse sind. beispielsweise dir1 --- | ------- dir1_1 | ------- dir1_2 dir2 --- | ------- dir2_1 | ...

apache-spark apache-spark-sql hiveql spark-dataframe

4 die antwort

Query Ein verschachteltes Array in Parkettaufzeichnungen

ch versuche verschiedene Möglichkeiten, einen Datensatz in einem Array von Datensätzen abzufragen und die vollständige Zeile als Ausgabe anzuzeige Ich weiß nicht, welches verschachtelte Objekt den String "pg" hat. Aber ich möchte nach einem ...

aggregation apache-spark storage

2 die antwort

Warum sind Spark Parkett-Dateien für ein Aggregat größer als das Original?

Ich versuche, eine Gesamtdatei für Endbenutzer zu erstellen, um zu vermeiden, dass diese mehrere Quellen mit viel größeren Dateien verarbeiten. Dazu gehe ich folgendermaßen vor: A) Durchsuche alle Quellordner, entferne 12 am ...

Seite 2 von 3

123

Suchergebnisse für Anfrage "parquet"

Spark partitionBy viel langsamer als ohne

Hive-Tabelle erstellen, um Parkettdateien aus dem Parkett- / Avro-Schema zu lesen

Spark SQL - Laden von csv / psv-Dateien mit einigen fehlerhaften Datensätzen

Beliebte Schlagwörter

TOP-Veröffentlichungen

Neue Daten an partitionierte Parkettdateien anhängen

Spark-Ausnahme: Task beim Schreiben von Zeilen fehlgeschlagen

Was sind die Vor- und Nachteile des Parkettformats im Vergleich zu anderen Formaten?

Die Verwendung von Spark zum Schreiben einer Parkettdatei in s3 über s3a ist sehr langsam

Lesen von Parkettdateien aus mehreren Verzeichnissen in Pyspark

Query Ein verschachteltes Array in Parkettaufzeichnungen

Warum sind Spark Parkett-Dateien für ein Aggregat größer als das Original?

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "parquet"

Beliebte Schlagwörter

TOP-Veröffentlichungen