Suchergebnisse für Anfrage "apache-spark"

6 die antwort

mische mehrere kleine Dateien in ein paar größeren Dateien in Spark

Ich benutze Hive durch Spark. Ich habe eine Abfrage In partitionierte Tabelle einfügen in meinem Spark-Code. Die Eingabedaten sind in 200 + gb. Wenn Spark in eine partitionierte Tabelle schreibt, werden sehr kleine Dateien (Dateien in ...

10 die antwort

Wie definiere ich die Partitionierung von DataFrame?

Ich habe begonnen, Spark SQL und DataFrames in Spark 1.4.0 zu verwenden. Ich möchte in Scala einen benutzerdefinierten Partitionierer für DataFrames definieren, sehe aber nicht, wie das geht. Eine der Datentabellen, mit denen ich arbeite, ...

4 die antwort

Duplikate aus einem Datenframe in pyspark entfernen

Ich spiele lokal mit Datenrahmen in Pyspark 1.4 herum und habe Probleme, die Drop-Duplikate-Methode zum Laufen zu bringen. Gibt weiterhin den Fehler "AttributeError: 'list' Objekt hat kein Attribut 'dropDuplicates'" zurück. Ich bin mir nicht ...

TOP-Veröffentlichungen

2 die antwort

Addieren des Sprachfilters zum Twittern von popularhashtags - scala

Ich bin neu bei Spark und Scala. Ich habe die beliebten Hashtags von Spark-Streaming-Job-Twitter verwendet. Ich habe einen Filter für einige Wörter hinzugefügt und konnte Tweets herausfiltern: val filter = Array("spark", "Big Data") val stream ...

2 die antwort

Spark groupByKey alternative

Nach den Best Practices von Databricks ist SparkgroupByKey sollte vermieden werden, da SparkgroupByKeyie @ -Verarbeitung funktioniert so, dass die Informationen zuerst zwischen den Mitarbeitern gemischt werden und dann die Verarbeitung ...

2 die antwort

Lesen Sie mit Spark @ mehrere Dateien aus einem Verzeichn

Ich versuche das zu lösenProble [https://www.kaggle.com/c/axa-driver-telematics-analysis] at kaggle using spark: die Hierarchie der Eingabe ist wie folgt: drivers/{driver_id}/trip#.csv e.g., drivers/1/1.csv drivers/1/2.csv drivers/2/1.csvIch ...

2 die antwort

Gibt es eine Möglichkeit, Spark RDD distinct neu zu schreiben, um mapPartitions anstelle von distinct zu verwenden?

Ich habe eine RDD, die zu groß ist, um eine eindeutige Anweisung ohne fehlerhafte Fehler konsistent auszuführen (z. B. 4-maliges Fehlschlagen der SparkException-Stufe, ExecutorLostFailure, HDFS-Dateisystem geschlossen, maximale Anzahl von ...

4 die antwort

spark + hadoop Datenlokalität

Ich habe eine RDD mit Dateinamen, also eine RDD [String]. Ich bekomme das durch Parallelisieren einer Liste von Dateinamen (von Dateien in hdfs). Nun ordne ich diesen Rdd zu und mein Code öffnet einen Hadoop-Stream mit FileSystem.open (Pfad). ...

2 die antwort

Spark Streaming in einem S3-Verzeichnis

So werden Tausende von Ereignissen über Amazon Kinesis in SQS gestreamt und dann in ein S3-Verzeichnis verschoben. Ungefähr alle 10 Minuten wird eine neue Textdatei erstellt, um die Daten von Kinesis in S3 zu speichern. Ich möchte Spark Streaming ...

2 die antwort

Spark: verschmelzen sehr langsam, auch wenn die Ausgabedaten sehr klein sind

Ich habe den folgenden Code in Spark: myData.filter(t => t.getMyEnum() == null) .map(t => t.toString) .saveAsTextFile("myOutput")Der Ordner myOutput enthält mehr als 2000 Dateien, aber nur wenige t.getMyEnum () == null, sodass nur sehr wenige ...