Suchergebnisse für Anfrage "parquet"

2 die antwort

Spark Ausnahme beim Konvertieren einer MySQL-Tabelle in Parkett

Ich versuche, eine MySQL-entfernte Tabelle mit spark 1.6.2 in eine Parkettdatei zu konvertieren. Der Vorgang dauert 10 Minuten und füllt den Speicher. Anschließend werden die folgenden Meldungen ausgegeben: WARN NettyRpcEndpointRef: Error ...

0 die antwort

SparkR collect () und head () Fehler für Spark DataFrame: Argumente implizieren unterschiedliche Zeilenanzahl

Ich habe eine Parkettdatei vom HDFS-System gelesen: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = ...

10 die antwort

Parkett vs ORC vs ORC mit Snappy

Ich teste die mit Hive verfügbaren Speicherformate und verwende Parkett und ORC als Hauptoptionen. Ich habe ORC einmal mit Standardkomprimierung und einmal mit Snappy eingeschlossen. Ich habe viele Dokumente gelesen, in denen festgestellt wird, ...

TOP-Veröffentlichungen

8 die antwort

Spark Dataframe validiert Spaltennamen für Parkettschreibvorgänge (Scala)

Ich verarbeite Ereignisse mit Dataframes, die aus einem Stream von JSON-Ereignissen konvertiert wurden, der schließlich als Parkettformat ausgegeben wird. Einige der JSON-Ereignisse enthalten jedoch Leerzeichen in den Schlüsseln, die ich ...

4 die antwort

Wie gehe ich mit Aufgaben um, die zu lange laufen (im Vergleich zu anderen im Job)?

Wir verwenden einen Spark-Cluster alsyarn-client um mehrere Geschäfte zu kalkulieren, aber manchmal läuft eine Aufgabe zu lange: [/imgs/IWSbQ.png] Wir stellen keine Zeitüberschreitung ein, aber ich denke, die Standardzeitüberschreitung einer ...

10 die antwort

Spark-Ausnahme: Task beim Schreiben von Zeilen fehlgeschlagen

Ich lese Textdateien und konvertiere sie in Parkettdateien. Ich mache es mit Spark-Code. Aber wenn ich versuche, den Code auszuführen, erhalte ich folgende Ausnahme org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 ...

2 die antwort

Spark partitionBy viel langsamer als ohne

Ich habe das Schreiben getestet mit: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath) Allerdings, wenn ich die Partitionierung weglasse: df.write .mode(SaveMode.Append) .parquet(filePath)It führt 100x (!) ...

2 die antwort

EntityTooLarge-Fehler beim Hochladen einer 5G-Datei auf Amazon S3

Amazon S3 Dateigrößenbeschränkung soll laut diesem @ 5T betragAnkündigun [http://aws.amazon.com/blogs/aws/amazon-s3-object-size-limit/], aber ich erhalte die folgende Fehlermeldung beim Hochladen einer ...

4 die antwort

Wie konvertiere ich spark SchemaRDD in RDD meiner Fallklasse?

In den Spark-Dokumenten ist es klar, wie Parkettdateien aus @ erstellt werdeRDD Ihrer eigenen Fallklassen; (aus den Dokumenten) val people: RDD[Person] = ??? // An RDD of case class objects, from the previous example. // The RDD is implicitly ...

4 die antwort

apache bohren schlechte Leistung

Ich habe versucht, mit Apache-Drill eine einfache Join-Aggregat-Abfrage auszuführen, und die Geschwindigkeit war nicht wirklich gut. meine testabfrage war: SELECT p.Product_Category, SUM(f.sales) FROM facts f JOIN Product p on f.pkey = p.pkey ...