Suchergebnisse für Anfrage "apache-spark"
So extrahieren Sie die besten Parameter aus einem CrossValidatorModel
Ich möchte die Parameter von @ findParamGridBuilder das beste Modell in CrossValidator in Spark 1.4.x machen, ImPipeline Example [http://spark.apache.org/docs/latest/ml-guide.html#example-model-selection-via-cross-validation] In der ...
Spark Launcher wartet unendlich lange auf den Abschluss des Auftrags
Ich versuche, eine JAR mit Spark-Job aus Java-Code in den YARN-Cluster zu übertragen. Ich verwende SparkLauncher, um ein SparkPi-Beispiel einzureichen: Process spark = new ...
Wie werden Dateien an den Masterknoten übergeben?
Ich habe bereits Code in Python geschrieben, um die binäre Klassifizierung zu implementieren, und ich möchte diesen Klassifizierungsprozess basierend auf verschiedenen Datendateien in meinem lokalen Computer mithilfe von ...
Wie gehe ich mit Aufgaben um, die zu lange laufen (im Vergleich zu anderen im Job)?
Wir verwenden einen Spark-Cluster alsyarn-client um mehrere Geschäfte zu kalkulieren, aber manchmal läuft eine Aufgabe zu lange: [/imgs/IWSbQ.png] Wir stellen keine Zeitüberschreitung ein, aber ich denke, die Standardzeitüberschreitung einer ...
Spark dataframes groupby in list
Ich versuche, einige Analysen an Sets durchzuführen. Ich habe einen Beispieldatensatz, der so aussieht: orders.json {"items":[1,2,3,4,5]} {"items":[1,2,5]} {"items":[1,3,5]} {"items":[3,4,5]}lles in allem ist es ein einzelnes Feld, das eine ...
So übergeben Sie eine ganze Zeile an UDF - Spark DataFrame-Filter
Ich schreibe eine Filterfunktion für ein komplexes JSON-Dataset mit vielen inneren Strukturen. Das Übergeben einzelner Spalten ist zu umständlich. So habe ich die folgende UDF deklariert: val records:DataFrame = = sqlContext.jsonFile("...") ...
Unterstützt Spark Unterabfragen? [Duplikat
Diese Frage hat hier bereits eine Antwort: Unterstützt SparkSQL Unterabfragen? [/questions/33933118/does-sparksql-support-subquery] 2 AntwortenWenn ich diese Abfrage starte, erhalte ich diese Art von Fehler select * from raw_2 where ip NOT IN ...
Berechnen Sie die Standardabweichung gruppierter Daten in einem Spark DataFrame
Ich habe Benutzerprotokolle, die ich aus einer CSV-Datei entnommen und in einen DataFrame konvertiert habe, um die SparkSQL-Abfragefunktionen zu nutzen. Ein einzelner Benutzer erstellt mehrere Einträge pro Stunde, und ich möchte ...
Pyspark: Ausnahme: Java-Gateway-Prozess wurde beendet, bevor dem Treiber seine Portnummer gesendet wurde
Ich versuche Pyspark auf meinem MacBook Air laufen zu lassen. Wenn ich versuche, es zu starten, erhalte ich die Fehlermeldung: Exception: Java gateway process exited before sending the driver its port number when sc = SparkContext () wird beim ...
SPARK: Fehler: `` union '' erwartet, aber `('gefunden
Ich habe einen Datenrahmen mit dem Namen df und der Spalte employee_id. Ich mache df.registerTempTable("d_f") val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f""" val result ...