Suchergebnisse für Anfrage "parquet"

Ich versuche, eine MySQL-entfernte Tabelle mit spark 1.6.2 in eine Parkettdatei zu konvertieren. Der Vorgang dauert 10 Minuten und füllt den Speicher. Anschließend werden die folgenden Meldungen ausgegeben: WARN NettyRpcEndpointRef: Error ...

apache-spark sparkr spark-dataframe r

0 die antwort

SparkR collect () und head () Fehler für Spark DataFrame: Argumente implizieren unterschiedliche Zeilenanzahl

Ich habe eine Parkettdatei vom HDFS-System gelesen: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = ...

hadoop hive snappy orc

10 die antwort

Parkett vs ORC vs ORC mit Snappy

Ich teste die mit Hive verfügbaren Speicherformate und verwende Parkett und ORC als Hauptoptionen. Ich habe ORC einmal mit Standardkomprimierung und einmal mit Snappy eingeschlossen. Ich habe viele Dokumente gelesen, in denen festgestellt wird, ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

spark-dataframe apache-spark apache-spark-sql spark-streaming

8 die antwort

Spark Dataframe validiert Spaltennamen für Parkettschreibvorgänge (Scala)

Ich verarbeite Ereignisse mit Dataframes, die aus einem Stream von JSON-Ereignissen konvertiert wurden, der schließlich als Parkettformat ausgegeben wird. Einige der JSON-Ereignisse enthalten jedoch Leerzeichen in den Schlüsseln, die ich ...

apache-spark yarn

4 die antwort

Wie gehe ich mit Aufgaben um, die zu lange laufen (im Vergleich zu anderen im Job)?

Wir verwenden einen Spark-Cluster alsyarn-client um mehrere Geschäfte zu kalkulieren, aber manchmal läuft eine Aufgabe zu lange: [/imgs/IWSbQ.png] Wir stellen keine Zeitüberschreitung ein, aber ich denke, die Standardzeitüberschreitung einer ...

java hadoop apache-spark-sql apache-spark

10 die antwort

Spark-Ausnahme: Task beim Schreiben von Zeilen fehlgeschlagen

Ich lese Textdateien und konvertiere sie in Parkettdateien. Ich mache es mit Spark-Code. Aber wenn ich versuche, den Code auszuführen, erhalte ich folgende Ausnahme org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 ...

apache-spark-sql scala apache-spark

2 die antwort

Spark partitionBy viel langsamer als ohne

Ich habe das Schreiben getestet mit: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath) Allerdings, wenn ich die Partitionierung weglasse: df.write .mode(SaveMode.Append) .parquet(filePath)It führt 100x (!) ...

jets3t amazon-s3 apache-spark-sql apache-spark

2 die antwort

EntityTooLarge-Fehler beim Hochladen einer 5G-Datei auf Amazon S3

Amazon S3 Dateigrößenbeschränkung soll laut diesem @ 5T betragAnkündigun [http://aws.amazon.com/blogs/aws/amazon-s3-object-size-limit/], aber ich erhalte die folgende Fehlermeldung beim Hochladen einer ...

apache-spark sql

4 die antwort

Wie konvertiere ich spark SchemaRDD in RDD meiner Fallklasse?

In den Spark-Dokumenten ist es klar, wie Parkettdateien aus @ erstellt werdeRDD Ihrer eigenen Fallklassen; (aus den Dokumenten) val people: RDD[Person] = ??? // An RDD of case class objects, from the previous example. // The RDD is implicitly ...

performance apache-drill

4 die antwort

apache bohren schlechte Leistung

Ich habe versucht, mit Apache-Drill eine einfache Join-Aggregat-Abfrage auszuführen, und die Geschwindigkeit war nicht wirklich gut. meine testabfrage war: SELECT p.Product_Category, SUM(f.sales) FROM facts f JOIN Product p on f.pkey = p.pkey ...

Seite 1 von 3

12 3

Suchergebnisse für Anfrage "parquet"

Spark Ausnahme beim Konvertieren einer MySQL-Tabelle in Parkett

SparkR collect () und head () Fehler für Spark DataFrame: Argumente implizieren unterschiedliche Zeilenanzahl

Parkett vs ORC vs ORC mit Snappy

Beliebte Schlagwörter

TOP-Veröffentlichungen

Spark Dataframe validiert Spaltennamen für Parkettschreibvorgänge (Scala)

Wie gehe ich mit Aufgaben um, die zu lange laufen (im Vergleich zu anderen im Job)?

Spark-Ausnahme: Task beim Schreiben von Zeilen fehlgeschlagen

Spark partitionBy viel langsamer als ohne

EntityTooLarge-Fehler beim Hochladen einer 5G-Datei auf Amazon S3

Wie konvertiere ich spark SchemaRDD in RDD meiner Fallklasse?

apache bohren schlechte Leistung

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "parquet"

Beliebte Schlagwörter

TOP-Veröffentlichungen