Suchergebnisse für Anfrage "parquet"

2 die antwort

Spark Ausnahme beim Konvertieren einer MySQL-Tabelle in Parkett

Ich versuche, eine MySQL-entfernte Tabelle mit spark 1.6.2 in eine Parkettdatei zu konvertieren. Der Vorgang dauert 10 Minuten und füllt den Speicher. Anschließend werden die folgenden Meldungen ausgegeben: WARN NettyRpcEndpointRef: Error ...

2 die antwort

Warum liest Apache Spark unnötige Parkettspalten in verschachtelten Strukturen?

as Team von @My erstellt einen ETL-Prozess, um mit Spark unbegrenzte Textdateien in einen Parkett-basierten "Datensee" zu laden. Eine der Versprechungen des Parquet-Spaltenspeichers ist, dass eine Abfrage nur die erforderlichen "Spaltenstreifen" ...

4 die antwort

apache bohren schlechte Leistung

Ich habe versucht, mit Apache-Drill eine einfache Join-Aggregat-Abfrage auszuführen, und die Geschwindigkeit war nicht wirklich gut. meine testabfrage war: SELECT p.Product_Category, SUM(f.sales) FROM facts f JOIN Product p on f.pkey = p.pkey ...

TOP-Veröffentlichungen

2 die antwort

Ist die Abfrage gegen einen auf CSV basierenden Spark-DataFrame schneller als gegen einen auf Parquet basierenden?

Ich muss eine CSV-Datei von HDFS mit Spark in @ ladeDataFrame. Ich habe mich gefragt, ob es eine "Leistungsverbesserung" (Abfragegeschwindigkeit) von einem mit einer CSV-Datei gesicherten DataFrame gegenüber einem mit einer ...

4 die antwort

Anhängen von Daten an eine vorhandene Parkettdatei

Ich verwende den folgenden Code, um ParquetWriter zu erstellen und Datensätze darauf zu schreiben. ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE); ...

8 die antwort

Spark Dataframe validiert Spaltennamen für Parkettschreibvorgänge (Scala)

Ich verarbeite Ereignisse mit Dataframes, die aus einem Stream von JSON-Ereignissen konvertiert wurden, der schließlich als Parkettformat ausgegeben wird. Einige der JSON-Ereignisse enthalten jedoch Leerzeichen in den Schlüsseln, die ich ...

2 die antwort

Warum sind Spark Parkett-Dateien für ein Aggregat größer als das Original?

Ich versuche, eine Gesamtdatei für Endbenutzer zu erstellen, um zu vermeiden, dass diese mehrere Quellen mit viel größeren Dateien verarbeiten. Dazu gehe ich folgendermaßen vor: A) Durchsuche alle Quellordner, entferne 12 am ...

4 die antwort

Query Ein verschachteltes Array in Parkettaufzeichnungen

ch versuche verschiedene Möglichkeiten, einen Datensatz in einem Array von Datensätzen abzufragen und die vollständige Zeile als Ausgabe anzuzeige Ich weiß nicht, welches verschachtelte Objekt den String "pg" hat. Aber ich möchte nach einem ...

6 die antwort

Lesen von Parkettdateien aus mehreren Verzeichnissen in Pyspark

Ich muss Parkettdateien von mehreren Pfaden lesen, die keine übergeordneten oder untergeordneten Verzeichnisse sind. beispielsweise dir1 --- | ------- dir1_1 | ------- dir1_2 dir2 --- | ------- dir2_1 | ...

4 die antwort

Die Verwendung von Spark zum Schreiben einer Parkettdatei in s3 über s3a ist sehr langsam

Ich versuche ein @ zu schreibparquet file out toAmazon S3 usingSpark 1.6.1. Der kleineparquet das ich generiere ist~2GB einmal geschrieben, es sind also nicht so viele Daten. Ich versuche zu beweisen,Sparkout als Plattform, die ich ...