Suchergebnisse für Anfrage "parquet"
Spark Ausnahme beim Konvertieren einer MySQL-Tabelle in Parkett
Ich versuche, eine MySQL-entfernte Tabelle mit spark 1.6.2 in eine Parkettdatei zu konvertieren. Der Vorgang dauert 10 Minuten und füllt den Speicher. Anschließend werden die folgenden Meldungen ausgegeben: WARN NettyRpcEndpointRef: Error ...
Warum liest Apache Spark unnötige Parkettspalten in verschachtelten Strukturen?
as Team von @My erstellt einen ETL-Prozess, um mit Spark unbegrenzte Textdateien in einen Parkett-basierten "Datensee" zu laden. Eine der Versprechungen des Parquet-Spaltenspeichers ist, dass eine Abfrage nur die erforderlichen "Spaltenstreifen" ...
apache bohren schlechte Leistung
Ich habe versucht, mit Apache-Drill eine einfache Join-Aggregat-Abfrage auszuführen, und die Geschwindigkeit war nicht wirklich gut. meine testabfrage war: SELECT p.Product_Category, SUM(f.sales) FROM facts f JOIN Product p on f.pkey = p.pkey ...
Ist die Abfrage gegen einen auf CSV basierenden Spark-DataFrame schneller als gegen einen auf Parquet basierenden?
Ich muss eine CSV-Datei von HDFS mit Spark in @ ladeDataFrame. Ich habe mich gefragt, ob es eine "Leistungsverbesserung" (Abfragegeschwindigkeit) von einem mit einer CSV-Datei gesicherten DataFrame gegenüber einem mit einer ...
Anhängen von Daten an eine vorhandene Parkettdatei
Ich verwende den folgenden Code, um ParquetWriter zu erstellen und Datensätze darauf zu schreiben. ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE); ...
Spark Dataframe validiert Spaltennamen für Parkettschreibvorgänge (Scala)
Ich verarbeite Ereignisse mit Dataframes, die aus einem Stream von JSON-Ereignissen konvertiert wurden, der schließlich als Parkettformat ausgegeben wird. Einige der JSON-Ereignisse enthalten jedoch Leerzeichen in den Schlüsseln, die ich ...
Warum sind Spark Parkett-Dateien für ein Aggregat größer als das Original?
Ich versuche, eine Gesamtdatei für Endbenutzer zu erstellen, um zu vermeiden, dass diese mehrere Quellen mit viel größeren Dateien verarbeiten. Dazu gehe ich folgendermaßen vor: A) Durchsuche alle Quellordner, entferne 12 am ...
Query Ein verschachteltes Array in Parkettaufzeichnungen
ch versuche verschiedene Möglichkeiten, einen Datensatz in einem Array von Datensätzen abzufragen und die vollständige Zeile als Ausgabe anzuzeige Ich weiß nicht, welches verschachtelte Objekt den String "pg" hat. Aber ich möchte nach einem ...
Lesen von Parkettdateien aus mehreren Verzeichnissen in Pyspark
Ich muss Parkettdateien von mehreren Pfaden lesen, die keine übergeordneten oder untergeordneten Verzeichnisse sind. beispielsweise dir1 --- | ------- dir1_1 | ------- dir1_2 dir2 --- | ------- dir2_1 | ...
Die Verwendung von Spark zum Schreiben einer Parkettdatei in s3 über s3a ist sehr langsam
Ich versuche ein @ zu schreibparquet file out toAmazon S3 usingSpark 1.6.1. Der kleineparquet das ich generiere ist~2GB einmal geschrieben, es sind also nicht so viele Daten. Ich versuche zu beweisen,Sparkout als Plattform, die ich ...