Suchergebnisse für Anfrage "apache-spark"

Ich benutze Hive durch Spark. Ich habe eine Abfrage In partitionierte Tabelle einfügen in meinem Spark-Code. Die Eingabedaten sind in 200 + gb. Wenn Spark in eine partitionierte Tabelle schreibt, werden sehr kleine Dateien (Dateien in ...

scala dataframe apache-spark-sql partitioning

10 die antwort

Wie definiere ich die Partitionierung von DataFrame?

Ich habe begonnen, Spark SQL und DataFrames in Spark 1.4.0 zu verwenden. Ich möchte in Scala einen benutzerdefinierten Partitionierer für DataFrames definieren, sehe aber nicht, wie das geht. Eine der Datentabellen, mit denen ich arbeite, ...

python pyspark

4 die antwort

Duplikate aus einem Datenframe in pyspark entfernen

Ich spiele lokal mit Datenrahmen in Pyspark 1.4 herum und habe Probleme, die Drop-Duplikate-Methode zum Laufen zu bringen. Gibt weiterhin den Fehler "AttributeError: 'list' Objekt hat kein Attribut 'dropDuplicates'" zurück. Ich bin mir nicht ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

scala spark-streaming twitter4j twitter

2 die antwort

Addieren des Sprachfilters zum Twittern von popularhashtags - scala

Ich bin neu bei Spark und Scala. Ich habe die beliebten Hashtags von Spark-Streaming-Job-Twitter verwendet. Ich habe einen Filter für einige Wörter hinzugefügt und konnte Tweets herausfiltern: val filter = Array("spark", "Big Data") val stream ...

rdd python reduce pyspark

2 die antwort

Spark groupByKey alternative

Nach den Best Practices von Databricks ist SparkgroupByKey sollte vermieden werden, da SparkgroupByKeyie @ -Verarbeitung funktioniert so, dass die Informationen zuerst zwischen den Mitarbeitern gemischt werden und dann die Verarbeitung ...

kaggle hadoop scala

2 die antwort

Lesen Sie mit Spark @ mehrere Dateien aus einem Verzeichn

Ich versuche das zu lösenProble [https://www.kaggle.com/c/axa-driver-telematics-analysis] at kaggle using spark: die Hierarchie der Eingabe ist wie folgt: drivers/{driver_id}/trip#.csv e.g., drivers/1/1.csv drivers/1/2.csv drivers/2/1.csvIch ...

scala shuffle rdd distinct

2 die antwort

Gibt es eine Möglichkeit, Spark RDD distinct neu zu schreiben, um mapPartitions anstelle von distinct zu verwenden?

Ich habe eine RDD, die zu groß ist, um eine eindeutige Anweisung ohne fehlerhafte Fehler konsistent auszuführen (z. B. 4-maliges Fehlschlagen der SparkException-Stufe, ExecutorLostFailure, HDFS-Dateisystem geschlossen, maximale Anzahl von ...

hdfs hadoop

4 die antwort

spark + hadoop Datenlokalität

Ich habe eine RDD mit Dateinamen, also eine RDD [String]. Ich bekomme das durch Parallelisieren einer Liste von Dateinamen (von Dateien in hdfs). Nun ordne ich diesen Rdd zu und mein Code öffnet einen Hadoop-Stream mit FileSystem.open (Pfad). ...

spark-streaming amazon-web-services scala amazon-s3

2 die antwort

Spark Streaming in einem S3-Verzeichnis

So werden Tausende von Ereignissen über Amazon Kinesis in SQS gestreamt und dann in ein S3-Verzeichnis verschoben. Ungefähr alle 10 Minuten wird eine neue Textdatei erstellt, um die Daten von Kinesis in S3 zu speichern. Ich möchte Spark Streaming ...

coalesce scala

2 die antwort

Spark: verschmelzen sehr langsam, auch wenn die Ausgabedaten sehr klein sind

Ich habe den folgenden Code in Spark: myData.filter(t => t.getMyEnum() == null) .map(t => t.toString) .saveAsTextFile("myOutput")Der Ordner myOutput enthält mehr als 2000 Dateien, aber nur wenige t.getMyEnum () == null, sodass nur sehr wenige ...

Seite 32 von 113

30 313233 34

Suchergebnisse für Anfrage "apache-spark"

mische mehrere kleine Dateien in ein paar größeren Dateien in Spark

Wie definiere ich die Partitionierung von DataFrame?

Duplikate aus einem Datenframe in pyspark entfernen

Beliebte Schlagwörter

TOP-Veröffentlichungen

Addieren des Sprachfilters zum Twittern von popularhashtags - scala

Spark groupByKey alternative

Lesen Sie mit Spark @ mehrere Dateien aus einem Verzeichn

Gibt es eine Möglichkeit, Spark RDD distinct neu zu schreiben, um mapPartitions anstelle von distinct zu verwenden?

spark + hadoop Datenlokalität

Spark Streaming in einem S3-Verzeichnis

Spark: verschmelzen sehr langsam, auch wenn die Ausgabedaten sehr klein sind

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "apache-spark"

Beliebte Schlagwörter

TOP-Veröffentlichungen