Suchergebnisse für Anfrage "apache-spark"
Wie kann man den Bereitstellungsmodus der PySpark-Anwendung kennen?
Ich versuche, ein Problem mit zu wenig Arbeitsspeicher zu beheben, und möchte wissen, ob ich diese Einstellungen in der Standardkonfigurationsdatei ändern muss spark-defaults.conf) im Spark-Ausgangsordner. Oder, wenn ich sie im Code einstellen ...
So teilen Sie Vector in Spalten auf - mit PySpark
Kontext Ich habe einDataFrame mit 2 Spalten: Wort und Vektor. Wo der Spaltentyp von "Vektor" istVectorUDT. Ein Beispiel word | vector assert | [435,323,324,212...] ,Und ich möchte Folgendes erhalten: word | v1 | v2 | v3 | v4 | v5 | v6 ...... ...
as in einem umschließenden Bereich definierte lokale Variablenprotokoll muss final oder effektiv final sei
Ich bin neu in Lambda und Java8. Ich stehe vor folgendem Fehler. as in einem umschließenden Bereich definierte lokale Variablenprotokoll muss final oder effektiv final sei public JavaRDD<String> modify(JavaRDD<String> filteredRdd) { ...
Access-Dateien, die mit einem Unterstrich in apache spark @ beginn
Ich versuche, auf gz-Dateien auf s3 zuzugreifen, die mit @ beginne_ in Apache Spark. Leider hält spark diese Dateien für unsichtbar und gibt @ zurücInput path does not exist: s3n:.../_1013.gz. Wenn ich den Unterstrich entferne, ist die Datei in ...
Retieve top n in jeder Gruppe eines DataFrame in pyspark
Es gibt einen DataFrame in Pyspark mit folgenden Daten: user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2 2 user_2 object_2 6Was ich erwarte, gibt 2 Datensätze in jeder Gruppe mit ...
Wie verbinde ich HBase und Spark mit Python?
Ich habe eine peinlich parallele Aufgabe, für die ich Spark verwende, um die Berechnungen zu verteilen. Diese Berechnungen sind in Python und ich benutze PySpark, um die Daten zu lesen und vorzuverarbeiten. Die Eingabedaten für meine Aufgabe ...
Wie liest Spark die Datei mit dem Anfang des Dateinamens?
Wenn ich Spark zum Parsen von Protokolldateien verwende, stelle ich fest, dass das erste Zeichen des Dateinamens @ is_, das Ergebnis ist leer. Hier ist mein Testcode: SparkSession spark = SparkSession .builder() ...
Spezifische Partitionen in der Spark-Dataframe-Schreibmethode überschreiben
Ich möchte bestimmte Partitionen überschreiben, anstatt alle in Spark. Ich versuche den folgenden Befehl: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')wobei df ein Datenrahmen ist, dessen inkrementelle Daten ...
Spark 2.0: Relativer Pfad in absoluter URI (Spark-Warehouse)
Ich versuche, von Spark 1.6.1 auf Spark 2.0.0 zu migrieren, und es wird ein seltsamer Fehler angezeigt, wenn ich versuche, eine CSV-Datei in SparkSQL einzulesen. Wenn ich zuvor eine Datei von einer lokalen Festplatte in Pyspark gelesen habe, ...
Was ist ein effizienter Weg, um nach Spalten zu partitionieren, aber eine feste Partitionsanzahl beizubehalten?
Was ist der beste Weg, um die Daten nach einem Feld in vordefinierte Partitionszahlen zu unterteilen? Ich partitioniere derzeit die Daten durch Angabe von partionCount = 600. Es wurde festgestellt, dass die Anzahl 600 die beste Abfrageleistung ...