Suchergebnisse für Anfrage "parquet"
Lesen Sie gleichzeitig einige Parkettdateien in Spark
Ich kann einige JSON-Dateien gleichzeitig mit * (Stern) lesen: sqlContext.jsonFile('/path/to/dir/*.json')ibt es eine Möglichkeit, dasselbe für Parkett zu tun? Star funktioniert nicht.
Avro vs. Parkett
Ich plane, für mein Hadoop-Projekt eines der Hadoop-Dateiformate zu verwenden. ICHverstehe Parkett ist effizient für spaltenbasierte Abfragen und Avro für den vollständigen Scan oder wenn wir alle Säulendaten benötigen! Bevor ich fortfahre und ...
Ist es möglich, Parkett direkt aus der Datei zu laden?
Wenn ich eine binäre Datendatei habe (diese kann in das CSV-Format konvertiert werden), gibt es eine Möglichkeit, Parketttabellen direkt daraus zu laden? In vielen Tutorials wird gezeigt, wie eine CSV-Datei in eine Texttabelle und anschließend ...
EntityTooLarge-Fehler beim Hochladen einer 5G-Datei auf Amazon S3
Amazon S3 Dateigrößenbeschränkung soll laut diesem @ 5T betragAnkündigun [http://aws.amazon.com/blogs/aws/amazon-s3-object-size-limit/], aber ich erhalte die folgende Fehlermeldung beim Hochladen einer ...
Spark SQL kann das Schreiben von Parkettdaten mit einer großen Anzahl von Shards nicht abschließen.
Ich versuche, Apache Spark SQL zu verwenden, um JSON-Protokolldaten in S3 auch in Parquet-Dateien in S3 zu speichern. Mein Code ist im Grunde: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data ...
Wie konvertiere ich spark SchemaRDD in RDD meiner Fallklasse?
In den Spark-Dokumenten ist es klar, wie Parkettdateien aus @ erstellt werdeRDD Ihrer eigenen Fallklassen; (aus den Dokumenten) val people: RDD[Person] = ??? // An RDD of case class objects, from the previous example. // The RDD is implicitly ...