Suchergebnisse für Anfrage "parquet"

Eigenschaften von Apache Parkett sind: SelbstbeschreibendColumnar Format SprachunabhängigIm Vergleich zu Avro, Sequence Files, RC File etc. möchte ich einen Überblick über die Formate. Ich habe schon gelesen:Wie Impala mit Hadoop-Dateiformaten ...

java hadoop apache-spark-sql apache-spark

10 die antwort

Spark-Ausnahme: Task beim Schreiben von Zeilen fehlgeschlagen

Ich lese Textdateien und konvertiere sie in Parkettdateien. Ich mache es mit Spark-Code. Aber wenn ich versuche, den Code auszuführen, erhalte ich folgende Ausnahme org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 ...

apache-spark append scala

4 die antwort

Neue Daten an partitionierte Parkettdateien anhängen

Ich schreibe einen ETL-Prozess, in dem ich stündliche Protokolldateien lesen, die Daten partitionieren und speichern muss. Ich benutze Spark (in Databricks). Die Protokolldateien sind CSV-Dateien, daher lese ich sie und wende ein Schema an. ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

csv apache-spark apache-spark-sql

2 die antwort

Spark SQL - Laden von csv / psv-Dateien mit einigen fehlerhaften Datensätzen

Wir laden mit Spark Hierarchien von Dateiverzeichnissen und konvertieren sie nach Parquet. In Hunderten von durch Pipes getrennten Dateien befinden sich zehn Gigabyte. Einige sind selbst ziemlich groß. Jede 100. Datei hat beispielsweise eine ...

avro hive

2 die antwort

Hive-Tabelle erstellen, um Parkettdateien aus dem Parkett- / Avro-Schema zu lesen

Wir suchen nach einer Lösung, um eine externe Hive-Tabelle zum Lesen von Daten aus Parkettdateien nach einem Parkett- / Avro-Schema zu erstellen. auf andere Weise, wie man eine Hive-Tabelle aus einem Parkett- / Avro-Schema generiert? Vielen Dank :

apache-spark-sql scala apache-spark

2 die antwort

Spark partitionBy viel langsamer als ohne

Ich habe das Schreiben getestet mit: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath) Allerdings, wenn ich die Partitionierung weglasse: df.write .mode(SaveMode.Append) .parquet(filePath)It führt 100x (!) ...

hadoop hive snappy orc

10 die antwort

Parkett vs ORC vs ORC mit Snappy

Ich teste die mit Hive verfügbaren Speicherformate und verwende Parkett und ORC als Hauptoptionen. Ich habe ORC einmal mit Standardkomprimierung und einmal mit Snappy eingeschlossen. Ich habe viele Dokumente gelesen, in denen festgestellt wird, ...

apache-spark yarn

4 die antwort

Wie gehe ich mit Aufgaben um, die zu lange laufen (im Vergleich zu anderen im Job)?

Wir verwenden einen Spark-Cluster alsyarn-client um mehrere Geschäfte zu kalkulieren, aber manchmal läuft eine Aufgabe zu lange: [/imgs/IWSbQ.png] Wir stellen keine Zeitüberschreitung ein, aber ich denke, die Standardzeitüberschreitung einer ...

apache-spark sparkr spark-dataframe r

0 die antwort

SparkR collect () und head () Fehler für Spark DataFrame: Argumente implizieren unterschiedliche Zeilenanzahl

Ich habe eine Parkettdatei vom HDFS-System gelesen: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = ...

java scala avro

4 die antwort

Wie kann ich Map <String, Objekt> in Java oder Scala aus einer Parkettdatei lesen und in eine Parkettdatei schreiben?

Suchen Sie nach einem kurzen Beispiel zum Lesen und Schreiben vonMap<String, Object> von / nach Parkettdatei in Java oder Scala? Hier ist die erwartete Struktur mitcom.fasterxml.jackson.databind.ObjectMapper als Serializer in Java (d. h. auf der ...

Seite 2 von 3

123

Suchergebnisse für Anfrage "parquet"

Was sind die Vor- und Nachteile des Parkettformats im Vergleich zu anderen Formaten?

Spark-Ausnahme: Task beim Schreiben von Zeilen fehlgeschlagen

Neue Daten an partitionierte Parkettdateien anhängen

Beliebte Schlagwörter

TOP-Veröffentlichungen

Spark SQL - Laden von csv / psv-Dateien mit einigen fehlerhaften Datensätzen

Hive-Tabelle erstellen, um Parkettdateien aus dem Parkett- / Avro-Schema zu lesen

Spark partitionBy viel langsamer als ohne

Parkett vs ORC vs ORC mit Snappy

Wie gehe ich mit Aufgaben um, die zu lange laufen (im Vergleich zu anderen im Job)?

SparkR collect () und head () Fehler für Spark DataFrame: Argumente implizieren unterschiedliche Zeilenanzahl

Wie kann ich Map <String, Objekt> in Java oder Scala aus einer Parkettdatei lesen und in eine Parkettdatei schreiben?

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "parquet"

Beliebte Schlagwörter

TOP-Veröffentlichungen