Suchergebnisse für Anfrage "apache-spark"
mische mehrere kleine Dateien in ein paar größeren Dateien in Spark
Ich benutze Hive durch Spark. Ich habe eine Abfrage In partitionierte Tabelle einfügen in meinem Spark-Code. Die Eingabedaten sind in 200 + gb. Wenn Spark in eine partitionierte Tabelle schreibt, werden sehr kleine Dateien (Dateien in ...
Wie definiere ich die Partitionierung von DataFrame?
Ich habe begonnen, Spark SQL und DataFrames in Spark 1.4.0 zu verwenden. Ich möchte in Scala einen benutzerdefinierten Partitionierer für DataFrames definieren, sehe aber nicht, wie das geht. Eine der Datentabellen, mit denen ich arbeite, ...
Duplikate aus einem Datenframe in pyspark entfernen
Ich spiele lokal mit Datenrahmen in Pyspark 1.4 herum und habe Probleme, die Drop-Duplikate-Methode zum Laufen zu bringen. Gibt weiterhin den Fehler "AttributeError: 'list' Objekt hat kein Attribut 'dropDuplicates'" zurück. Ich bin mir nicht ...
Addieren des Sprachfilters zum Twittern von popularhashtags - scala
Ich bin neu bei Spark und Scala. Ich habe die beliebten Hashtags von Spark-Streaming-Job-Twitter verwendet. Ich habe einen Filter für einige Wörter hinzugefügt und konnte Tweets herausfiltern: val filter = Array("spark", "Big Data") val stream ...
Spark groupByKey alternative
Nach den Best Practices von Databricks ist SparkgroupByKey sollte vermieden werden, da SparkgroupByKeyie @ -Verarbeitung funktioniert so, dass die Informationen zuerst zwischen den Mitarbeitern gemischt werden und dann die Verarbeitung ...
Lesen Sie mit Spark @ mehrere Dateien aus einem Verzeichn
Ich versuche das zu lösenProble [https://www.kaggle.com/c/axa-driver-telematics-analysis] at kaggle using spark: die Hierarchie der Eingabe ist wie folgt: drivers/{driver_id}/trip#.csv e.g., drivers/1/1.csv drivers/1/2.csv drivers/2/1.csvIch ...
Gibt es eine Möglichkeit, Spark RDD distinct neu zu schreiben, um mapPartitions anstelle von distinct zu verwenden?
Ich habe eine RDD, die zu groß ist, um eine eindeutige Anweisung ohne fehlerhafte Fehler konsistent auszuführen (z. B. 4-maliges Fehlschlagen der SparkException-Stufe, ExecutorLostFailure, HDFS-Dateisystem geschlossen, maximale Anzahl von ...
spark + hadoop Datenlokalität
Ich habe eine RDD mit Dateinamen, also eine RDD [String]. Ich bekomme das durch Parallelisieren einer Liste von Dateinamen (von Dateien in hdfs). Nun ordne ich diesen Rdd zu und mein Code öffnet einen Hadoop-Stream mit FileSystem.open (Pfad). ...
Spark Streaming in einem S3-Verzeichnis
So werden Tausende von Ereignissen über Amazon Kinesis in SQS gestreamt und dann in ein S3-Verzeichnis verschoben. Ungefähr alle 10 Minuten wird eine neue Textdatei erstellt, um die Daten von Kinesis in S3 zu speichern. Ich möchte Spark Streaming ...
Spark: verschmelzen sehr langsam, auch wenn die Ausgabedaten sehr klein sind
Ich habe den folgenden Code in Spark: myData.filter(t => t.getMyEnum() == null) .map(t => t.toString) .saveAsTextFile("myOutput")Der Ordner myOutput enthält mehr als 2000 Dateien, aber nur wenige t.getMyEnum () == null, sodass nur sehr wenige ...