Suchergebnisse für Anfrage "apache-spark"

16 die antwort

So extrahieren Sie die besten Parameter aus einem CrossValidatorModel

Ich möchte die Parameter von @ findParamGridBuilder das beste Modell in CrossValidator in Spark 1.4.x machen, ImPipeline Example [http://spark.apache.org/docs/latest/ml-guide.html#example-model-selection-via-cross-validation] In der ...

6 die antwort

Spark Launcher wartet unendlich lange auf den Abschluss des Auftrags

Ich versuche, eine JAR mit Spark-Job aus Java-Code in den YARN-Cluster zu übertragen. Ich verwende SparkLauncher, um ein SparkPi-Beispiel einzureichen: Process spark = new ...

2 die antwort

Wie werden Dateien an den Masterknoten übergeben?

Ich habe bereits Code in Python geschrieben, um die binäre Klassifizierung zu implementieren, und ich möchte diesen Klassifizierungsprozess basierend auf verschiedenen Datendateien in meinem lokalen Computer mithilfe von ...

TOP-Veröffentlichungen

4 die antwort

Wie gehe ich mit Aufgaben um, die zu lange laufen (im Vergleich zu anderen im Job)?

Wir verwenden einen Spark-Cluster alsyarn-client um mehrere Geschäfte zu kalkulieren, aber manchmal läuft eine Aufgabe zu lange: [/imgs/IWSbQ.png] Wir stellen keine Zeitüberschreitung ein, aber ich denke, die Standardzeitüberschreitung einer ...

2 die antwort

Spark dataframes groupby in list

Ich versuche, einige Analysen an Sets durchzuführen. Ich habe einen Beispieldatensatz, der so aussieht: orders.json {"items":[1,2,3,4,5]} {"items":[1,2,5]} {"items":[1,3,5]} {"items":[3,4,5]}lles in allem ist es ein einzelnes Feld, das eine ...

4 die antwort

So übergeben Sie eine ganze Zeile an UDF - Spark DataFrame-Filter

Ich schreibe eine Filterfunktion für ein komplexes JSON-Dataset mit vielen inneren Strukturen. Das Übergeben einzelner Spalten ist zu umständlich. So habe ich die folgende UDF deklariert: val records:DataFrame = = sqlContext.jsonFile("...") ...

2 die antwort

Unterstützt Spark Unterabfragen? [Duplikat

Diese Frage hat hier bereits eine Antwort: Unterstützt SparkSQL Unterabfragen? [/questions/33933118/does-sparksql-support-subquery] 2 AntwortenWenn ich diese Abfrage starte, erhalte ich diese Art von Fehler select * from raw_2 where ip NOT IN ...

2 die antwort

Berechnen Sie die Standardabweichung gruppierter Daten in einem Spark DataFrame

Ich habe Benutzerprotokolle, die ich aus einer CSV-Datei entnommen und in einen DataFrame konvertiert habe, um die SparkSQL-Abfragefunktionen zu nutzen. Ein einzelner Benutzer erstellt mehrere Einträge pro Stunde, und ich möchte ...

36 die antwort

Pyspark: Ausnahme: Java-Gateway-Prozess wurde beendet, bevor dem Treiber seine Portnummer gesendet wurde

Ich versuche Pyspark auf meinem MacBook Air laufen zu lassen. Wenn ich versuche, es zu starten, erhalte ich die Fehlermeldung: Exception: Java gateway process exited before sending the driver its port number when sc = SparkContext () wird beim ...

4 die antwort

SPARK: Fehler: `` union '' erwartet, aber `('gefunden

Ich habe einen Datenrahmen mit dem Namen df und der Spalte employee_id. Ich mache df.registerTempTable("d_f") val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f""" val result ...