Suchergebnisse für Anfrage "parquet"
Spark Dataframe validiert Spaltennamen für Parkettschreibvorgänge (Scala)
Ich verarbeite Ereignisse mit Dataframes, die aus einem Stream von JSON-Ereignissen konvertiert wurden, der schließlich als Parkettformat ausgegeben wird. Einige der JSON-Ereignisse enthalten jedoch Leerzeichen in den Schlüsseln, die ich ...
Anhängen von Daten an eine vorhandene Parkettdatei
Ich verwende den folgenden Code, um ParquetWriter zu erstellen und Datensätze darauf zu schreiben. ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE); ...
apache bohren schlechte Leistung
Ich habe versucht, mit Apache-Drill eine einfache Join-Aggregat-Abfrage auszuführen, und die Geschwindigkeit war nicht wirklich gut. meine testabfrage war: SELECT p.Product_Category, SUM(f.sales) FROM facts f JOIN Product p on f.pkey = p.pkey ...
Ist die Abfrage gegen einen auf CSV basierenden Spark-DataFrame schneller als gegen einen auf Parquet basierenden?
Ich muss eine CSV-Datei von HDFS mit Spark in @ ladeDataFrame. Ich habe mich gefragt, ob es eine "Leistungsverbesserung" (Abfragegeschwindigkeit) von einem mit einer CSV-Datei gesicherten DataFrame gegenüber einem mit einer ...
Spark Ausnahme beim Konvertieren einer MySQL-Tabelle in Parkett
Ich versuche, eine MySQL-entfernte Tabelle mit spark 1.6.2 in eine Parkettdatei zu konvertieren. Der Vorgang dauert 10 Minuten und füllt den Speicher. Anschließend werden die folgenden Meldungen ausgegeben: WARN NettyRpcEndpointRef: Error ...
Warum liest Apache Spark unnötige Parkettspalten in verschachtelten Strukturen?
as Team von @My erstellt einen ETL-Prozess, um mit Spark unbegrenzte Textdateien in einen Parkett-basierten "Datensee" zu laden. Eine der Versprechungen des Parquet-Spaltenspeichers ist, dass eine Abfrage nur die erforderlichen "Spaltenstreifen" ...