Suchergebnisse für Anfrage "parquet"

Ich plane, für mein Hadoop-Projekt eines der Hadoop-Dateiformate zu verwenden. ICHverstehe Parkett ist effizient für spaltenbasierte Abfragen und Avro für den vollständigen Scan oder wenn wir alle Säulendaten benötigen! Bevor ich fortfahre und ...

hdfs hadoop avro file

6 die antwort

Was sind die Vor- und Nachteile des Parkettformats im Vergleich zu anderen Formaten?

Eigenschaften von Apache Parkett sind: SelbstbeschreibendColumnar Format SprachunabhängigIm Vergleich zu Avro, Sequence Files, RC File etc. möchte ich einen Überblick über die Formate. Ich habe schon gelesen:Wie Impala mit Hadoop-Dateiformaten ...

avro hive

2 die antwort

Hive-Tabelle erstellen, um Parkettdateien aus dem Parkett- / Avro-Schema zu lesen

Wir suchen nach einer Lösung, um eine externe Hive-Tabelle zum Lesen von Daten aus Parkettdateien nach einem Parkett- / Avro-Schema zu erstellen. auf andere Weise, wie man eine Hive-Tabelle aus einem Parkett- / Avro-Schema generiert? Vielen Dank :

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

apache-spark yarn

4 die antwort

Wie gehe ich mit Aufgaben um, die zu lange laufen (im Vergleich zu anderen im Job)?

Wir verwenden einen Spark-Cluster alsyarn-client um mehrere Geschäfte zu kalkulieren, aber manchmal läuft eine Aufgabe zu lange: [/imgs/IWSbQ.png] Wir stellen keine Zeitüberschreitung ein, aber ich denke, die Standardzeitüberschreitung einer ...

aggregation apache-spark storage

2 die antwort

Warum sind Spark Parkett-Dateien für ein Aggregat größer als das Original?

Ich versuche, eine Gesamtdatei für Endbenutzer zu erstellen, um zu vermeiden, dass diese mehrere Quellen mit viel größeren Dateien verarbeiten. Dazu gehe ich folgendermaßen vor: A) Durchsuche alle Quellordner, entferne 12 am ...

apache-spark sparkr spark-dataframe r

0 die antwort

SparkR collect () und head () Fehler für Spark DataFrame: Argumente implizieren unterschiedliche Zeilenanzahl

Ich habe eine Parkettdatei vom HDFS-System gelesen: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = ...

apache-spark append scala

4 die antwort

Neue Daten an partitionierte Parkettdateien anhängen

Ich schreibe einen ETL-Prozess, in dem ich stündliche Protokolldateien lesen, die Daten partitionieren und speichern muss. Ich benutze Spark (in Databricks). Die Protokolldateien sind CSV-Dateien, daher lese ich sie und wende ein Schema an. ...

apache-spark spark-dataframe

2 die antwort

Warum liest Apache Spark unnötige Parkettspalten in verschachtelten Strukturen?

as Team von @My erstellt einen ETL-Prozess, um mit Spark unbegrenzte Textdateien in einen Parkett-basierten "Datensee" zu laden. Eine der Versprechungen des Parquet-Spaltenspeichers ist, dass eine Abfrage nur die erforderlichen "Spaltenstreifen" ...

spark-dataframe apache-spark apache-spark-sql spark-streaming

8 die antwort

Spark Dataframe validiert Spaltennamen für Parkettschreibvorgänge (Scala)

Ich verarbeite Ereignisse mit Dataframes, die aus einem Stream von JSON-Ereignissen konvertiert wurden, der schließlich als Parkettformat ausgegeben wird. Einige der JSON-Ereignisse enthalten jedoch Leerzeichen in den Schlüsseln, die ich ...

apache-spark sql

4 die antwort

Wie konvertiere ich spark SchemaRDD in RDD meiner Fallklasse?

In den Spark-Dokumenten ist es klar, wie Parkettdateien aus @ erstellt werdeRDD Ihrer eigenen Fallklassen; (aus den Dokumenten) val people: RDD[Person] = ??? // An RDD of case class objects, from the previous example. // The RDD is implicitly ...

Seite 1 von 3

12 3

Suchergebnisse für Anfrage "parquet"

Avro vs. Parkett

Was sind die Vor- und Nachteile des Parkettformats im Vergleich zu anderen Formaten?

Hive-Tabelle erstellen, um Parkettdateien aus dem Parkett- / Avro-Schema zu lesen

Beliebte Schlagwörter

TOP-Veröffentlichungen

Wie gehe ich mit Aufgaben um, die zu lange laufen (im Vergleich zu anderen im Job)?

Warum sind Spark Parkett-Dateien für ein Aggregat größer als das Original?

SparkR collect () und head () Fehler für Spark DataFrame: Argumente implizieren unterschiedliche Zeilenanzahl

Neue Daten an partitionierte Parkettdateien anhängen

Warum liest Apache Spark unnötige Parkettspalten in verschachtelten Strukturen?

Spark Dataframe validiert Spaltennamen für Parkettschreibvorgänge (Scala)

Wie konvertiere ich spark SchemaRDD in RDD meiner Fallklasse?

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "parquet"

Beliebte Schlagwörter

TOP-Veröffentlichungen