Suchergebnisse für Anfrage "apache-spark"

6 die antwort

Wie kann man den Bereitstellungsmodus der PySpark-Anwendung kennen?

Ich versuche, ein Problem mit zu wenig Arbeitsspeicher zu beheben, und möchte wissen, ob ich diese Einstellungen in der Standardkonfigurationsdatei ändern muss spark-defaults.conf) im Spark-Ausgangsordner. Oder, wenn ich sie im Code einstellen ...

2 die antwort

So teilen Sie Vector in Spalten auf - mit PySpark

Kontext Ich habe einDataFrame mit 2 Spalten: Wort und Vektor. Wo der Spaltentyp von "Vektor" istVectorUDT. Ein Beispiel word | vector assert | [435,323,324,212...] ,Und ich möchte Folgendes erhalten: word | v1 | v2 | v3 | v4 | v5 | v6 ...... ...

6 die antwort

as in einem umschließenden Bereich definierte lokale Variablenprotokoll muss final oder effektiv final sei

Ich bin neu in Lambda und Java8. Ich stehe vor folgendem Fehler. as in einem umschließenden Bereich definierte lokale Variablenprotokoll muss final oder effektiv final sei public JavaRDD<String> modify(JavaRDD<String> filteredRdd) { ...

TOP-Veröffentlichungen

2 die antwort

Access-Dateien, die mit einem Unterstrich in apache spark @ beginn

Ich versuche, auf gz-Dateien auf s3 zuzugreifen, die mit @ beginne_ in Apache Spark. Leider hält spark diese Dateien für unsichtbar und gibt @ zurücInput path does not exist: s3n:.../_1013.gz. Wenn ich den Unterstrich entferne, ist die Datei in ...

6 die antwort

Retieve top n in jeder Gruppe eines DataFrame in pyspark

Es gibt einen DataFrame in Pyspark mit folgenden Daten: user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2 2 user_2 object_2 6Was ich erwarte, gibt 2 Datensätze in jeder Gruppe mit ...

2 die antwort

Wie verbinde ich HBase und Spark mit Python?

Ich habe eine peinlich parallele Aufgabe, für die ich Spark verwende, um die Berechnungen zu verteilen. Diese Berechnungen sind in Python und ich benutze PySpark, um die Daten zu lesen und vorzuverarbeiten. Die Eingabedaten für meine Aufgabe ...

2 die antwort

Wie liest Spark die Datei mit dem Anfang des Dateinamens?

Wenn ich Spark zum Parsen von Protokolldateien verwende, stelle ich fest, dass das erste Zeichen des Dateinamens @ is_, das Ergebnis ist leer. Hier ist mein Testcode: SparkSession spark = SparkSession .builder() ...

18 die antwort

Spezifische Partitionen in der Spark-Dataframe-Schreibmethode überschreiben

Ich möchte bestimmte Partitionen überschreiben, anstatt alle in Spark. Ich versuche den folgenden Befehl: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')wobei df ein Datenrahmen ist, dessen inkrementelle Daten ...

2 die antwort

Spark 2.0: Relativer Pfad in absoluter URI (Spark-Warehouse)

Ich versuche, von Spark 1.6.1 auf Spark 2.0.0 zu migrieren, und es wird ein seltsamer Fehler angezeigt, wenn ich versuche, eine CSV-Datei in SparkSQL einzulesen. Wenn ich zuvor eine Datei von einer lokalen Festplatte in Pyspark gelesen habe, ...

2 die antwort

Was ist ein effizienter Weg, um nach Spalten zu partitionieren, aber eine feste Partitionsanzahl beizubehalten?

Was ist der beste Weg, um die Daten nach einem Feld in vordefinierte Partitionszahlen zu unterteilen? Ich partitioniere derzeit die Daten durch Angabe von partionCount = 600. Es wurde festgestellt, dass die Anzahl 600 die beste Abfrageleistung ...