Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Wie verwende ich die programmatische Funkenübertragung?

Es gibt eine neuere Funktion (Frühjahr 2015), mit der anscheinend ein Funkenjob programmgesteuert übergeben werden soll. Hier ist der JIRAhttps: ...

2 die antwort

winutils spark windows installation

Ich versuche Spark 1.6.1 unter Windows 10 zu installieren und habe bisher Folgendes getan ... Downloaded spark 1.6.1, entpackt in ein Verzeichnis und setze dann SPARK_HOMEDownloaded scala 2.11.8, entpackt in ein Verzeichnis und setzt ...

6 die antwort

Liste der Datentypen aus dem Schema in Apache Spark abrufen

Ich habe den folgenden Code in Spark-Python, um die Liste der Namen aus dem Schema eines DataFrame abzurufen. Das funktioniert, aber wie kann ich die Liste der Datentypen abrufen? columnNames = df.schema.names Zum Beispiel so etwas ...

TOP-Veröffentlichungen

8 die antwort

Wie überprüfe ich den Status von Spark-Anwendungen über die Befehlszeile?

Um zu überprüfen, ob Anwendungen in Apache Spark ausgeführt werden, können Sie diese über die Weboberfläche unter der folgenden URL überprüfen: http://<master>:8080 Meine Frage, wie wir die Ausführung von Anwendungen über das Terminal ...

4 die antwort

Wie führe ich eine Funktion für alle Spark-Worker aus, bevor ich Daten in PySpark verarbeite?

Ich führe eine Spark-Streaming-Aufgabe in einem Cluster mit YARN aus. Auf jedem Knoten im Cluster werden mehrere Spark Worker ausgeführt. Bevor das Streaming startet, möchte ich eine "Setup" -Funktion für alle Worker auf allen Knoten im Cluster ...

4 die antwort

Query Ein verschachteltes Array in Parkettaufzeichnungen

ch versuche verschiedene Möglichkeiten, einen Datensatz in einem Array von Datensätzen abzufragen und die vollständige Zeile als Ausgabe anzuzeige Ich weiß nicht, welches verschachtelte Objekt den String "pg" hat. Aber ich möchte nach einem ...

2 die antwort

erschieben von Spark DataFrame von Python nach Scala mit Zeppel

Ich habe einen Funken DataFrame in einem Python-Absatz in Zeppelin erstellt. sqlCtx = SQLContext(sc) spDf = sqlCtx.createDataFrame(df)unddf ist ein Pandas-Datenrahmen print(type(df)) <class 'pandas.core.frame.DataFrame'>was ich tun möchte, ...

0 die antwort

Prepare Batch-Anweisung zum Speichern aller Rdd in MySQL, die durch Spark-Streaming generiert wurden

Ich versuche, die aus Dstream generierten Batch-RDDs mithilfe von Spark-Streaming in MySQL einzufügen. Der folgende Code funktioniert gut, aber das Problem dabei ist, dass ich eine Verbindung zum Speichern jedes Tupels erstelle. Also, um zu ...

4 die antwort

Spark: Unterschied beim Einlesen von .gz und .bz2

Normalerweise lese und schreibe ich Dateien in Spark mit .gz, wobei die Anzahl der Dateien der Anzahl der RDD-Partitionen entsprechen sollte. Das heißt Eine riesige .gz-Datei wird in eine einzelne Partition eingelesen. Wenn ich jedoch eine ...

4 die antwort

Parameter für implizites pyspark.ml-ALS-Matrixfaktorisierungsmodell über pyspark.ml einstellen CrossValidator

Ich versuche, die Parameter eines ALS-Matrixfaktorisierungsmodells zu optimieren, das implizite Daten verwendet. Dazu versuche ich, mit pyspark.ml.tuning.CrossValidator ein Parameterraster zu durchlaufen und das beste Modell auszuwählen. Ich ...