Suchergebnisse für Anfrage "parquet"
Was sind die Vor- und Nachteile des Parkettformats im Vergleich zu anderen Formaten?
Eigenschaften von Apache Parkett sind: SelbstbeschreibendColumnar Format SprachunabhängigIm Vergleich zu Avro, Sequence Files, RC File etc. möchte ich einen Überblick über die Formate. Ich habe schon gelesen:Wie Impala mit Hadoop-Dateiformaten ...
Spark-Ausnahme: Task beim Schreiben von Zeilen fehlgeschlagen
Ich lese Textdateien und konvertiere sie in Parkettdateien. Ich mache es mit Spark-Code. Aber wenn ich versuche, den Code auszuführen, erhalte ich folgende Ausnahme org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 ...
Neue Daten an partitionierte Parkettdateien anhängen
Ich schreibe einen ETL-Prozess, in dem ich stündliche Protokolldateien lesen, die Daten partitionieren und speichern muss. Ich benutze Spark (in Databricks). Die Protokolldateien sind CSV-Dateien, daher lese ich sie und wende ein Schema an. ...
Spark SQL - Laden von csv / psv-Dateien mit einigen fehlerhaften Datensätzen
Wir laden mit Spark Hierarchien von Dateiverzeichnissen und konvertieren sie nach Parquet. In Hunderten von durch Pipes getrennten Dateien befinden sich zehn Gigabyte. Einige sind selbst ziemlich groß. Jede 100. Datei hat beispielsweise eine ...
Hive-Tabelle erstellen, um Parkettdateien aus dem Parkett- / Avro-Schema zu lesen
Wir suchen nach einer Lösung, um eine externe Hive-Tabelle zum Lesen von Daten aus Parkettdateien nach einem Parkett- / Avro-Schema zu erstellen. auf andere Weise, wie man eine Hive-Tabelle aus einem Parkett- / Avro-Schema generiert? Vielen Dank :
Spark partitionBy viel langsamer als ohne
Ich habe das Schreiben getestet mit: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath) Allerdings, wenn ich die Partitionierung weglasse: df.write .mode(SaveMode.Append) .parquet(filePath)It führt 100x (!) ...
Parkett vs ORC vs ORC mit Snappy
Ich teste die mit Hive verfügbaren Speicherformate und verwende Parkett und ORC als Hauptoptionen. Ich habe ORC einmal mit Standardkomprimierung und einmal mit Snappy eingeschlossen. Ich habe viele Dokumente gelesen, in denen festgestellt wird, ...
Wie gehe ich mit Aufgaben um, die zu lange laufen (im Vergleich zu anderen im Job)?
Wir verwenden einen Spark-Cluster alsyarn-client um mehrere Geschäfte zu kalkulieren, aber manchmal läuft eine Aufgabe zu lange: [/imgs/IWSbQ.png] Wir stellen keine Zeitüberschreitung ein, aber ich denke, die Standardzeitüberschreitung einer ...
SparkR collect () und head () Fehler für Spark DataFrame: Argumente implizieren unterschiedliche Zeilenanzahl
Ich habe eine Parkettdatei vom HDFS-System gelesen: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = ...
Wie kann ich Map <String, Objekt> in Java oder Scala aus einer Parkettdatei lesen und in eine Parkettdatei schreiben?
Suchen Sie nach einem kurzen Beispiel zum Lesen und Schreiben vonMap<String, Object> von / nach Parkettdatei in Java oder Scala? Hier ist die erwartete Struktur mitcom.fasterxml.jackson.databind.ObjectMapper als Serializer in Java (d. h. auf der ...