Suchergebnisse für Anfrage "parquet"

8 die antwort

Lesen Sie gleichzeitig einige Parkettdateien in Spark

Ich kann einige JSON-Dateien gleichzeitig mit * (Stern) lesen: sqlContext.jsonFile('/path/to/dir/*.json')ibt es eine Möglichkeit, dasselbe für Parkett zu tun? Star funktioniert nicht.

14 die antwort

Avro vs. Parkett

Ich plane, für mein Hadoop-Projekt eines der Hadoop-Dateiformate zu verwenden. ICHverstehe Parkett ist effizient für spaltenbasierte Abfragen und Avro für den vollständigen Scan oder wenn wir alle Säulendaten benötigen! Bevor ich fortfahre und ...

2 die antwort

Ist es möglich, Parkett direkt aus der Datei zu laden?

Wenn ich eine binäre Datendatei habe (diese kann in das CSV-Format konvertiert werden), gibt es eine Möglichkeit, Parketttabellen direkt daraus zu laden? In vielen Tutorials wird gezeigt, wie eine CSV-Datei in eine Texttabelle und anschließend ...

TOP-Veröffentlichungen

2 die antwort

EntityTooLarge-Fehler beim Hochladen einer 5G-Datei auf Amazon S3

Amazon S3 Dateigrößenbeschränkung soll laut diesem @ 5T betragAnkündigun [http://aws.amazon.com/blogs/aws/amazon-s3-object-size-limit/], aber ich erhalte die folgende Fehlermeldung beim Hochladen einer ...

1 die antwort

Spark SQL kann das Schreiben von Parkettdaten mit einer großen Anzahl von Shards nicht abschließen.

Ich versuche, Apache Spark SQL zu verwenden, um JSON-Protokolldaten in S3 auch in Parquet-Dateien in S3 zu speichern. Mein Code ist im Grunde: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data ...

4 die antwort

Wie konvertiere ich spark SchemaRDD in RDD meiner Fallklasse?

In den Spark-Dokumenten ist es klar, wie Parkettdateien aus @ erstellt werdeRDD Ihrer eigenen Fallklassen; (aus den Dokumenten) val people: RDD[Person] = ??? // An RDD of case class objects, from the previous example. // The RDD is implicitly ...