Suchergebnisse für Anfrage "apache-spark"
Wie verwende ich die programmatische Funkenübertragung?
Es gibt eine neuere Funktion (Frühjahr 2015), mit der anscheinend ein Funkenjob programmgesteuert übergeben werden soll. Hier ist der JIRAhttps: ...
winutils spark windows installation
Ich versuche Spark 1.6.1 unter Windows 10 zu installieren und habe bisher Folgendes getan ... Downloaded spark 1.6.1, entpackt in ein Verzeichnis und setze dann SPARK_HOMEDownloaded scala 2.11.8, entpackt in ein Verzeichnis und setzt ...
Liste der Datentypen aus dem Schema in Apache Spark abrufen
Ich habe den folgenden Code in Spark-Python, um die Liste der Namen aus dem Schema eines DataFrame abzurufen. Das funktioniert, aber wie kann ich die Liste der Datentypen abrufen? columnNames = df.schema.names Zum Beispiel so etwas ...
Wie überprüfe ich den Status von Spark-Anwendungen über die Befehlszeile?
Um zu überprüfen, ob Anwendungen in Apache Spark ausgeführt werden, können Sie diese über die Weboberfläche unter der folgenden URL überprüfen: http://<master>:8080 Meine Frage, wie wir die Ausführung von Anwendungen über das Terminal ...
Wie führe ich eine Funktion für alle Spark-Worker aus, bevor ich Daten in PySpark verarbeite?
Ich führe eine Spark-Streaming-Aufgabe in einem Cluster mit YARN aus. Auf jedem Knoten im Cluster werden mehrere Spark Worker ausgeführt. Bevor das Streaming startet, möchte ich eine "Setup" -Funktion für alle Worker auf allen Knoten im Cluster ...
Query Ein verschachteltes Array in Parkettaufzeichnungen
ch versuche verschiedene Möglichkeiten, einen Datensatz in einem Array von Datensätzen abzufragen und die vollständige Zeile als Ausgabe anzuzeige Ich weiß nicht, welches verschachtelte Objekt den String "pg" hat. Aber ich möchte nach einem ...
erschieben von Spark DataFrame von Python nach Scala mit Zeppel
Ich habe einen Funken DataFrame in einem Python-Absatz in Zeppelin erstellt. sqlCtx = SQLContext(sc) spDf = sqlCtx.createDataFrame(df)unddf ist ein Pandas-Datenrahmen print(type(df)) <class 'pandas.core.frame.DataFrame'>was ich tun möchte, ...
Prepare Batch-Anweisung zum Speichern aller Rdd in MySQL, die durch Spark-Streaming generiert wurden
Ich versuche, die aus Dstream generierten Batch-RDDs mithilfe von Spark-Streaming in MySQL einzufügen. Der folgende Code funktioniert gut, aber das Problem dabei ist, dass ich eine Verbindung zum Speichern jedes Tupels erstelle. Also, um zu ...
Spark: Unterschied beim Einlesen von .gz und .bz2
Normalerweise lese und schreibe ich Dateien in Spark mit .gz, wobei die Anzahl der Dateien der Anzahl der RDD-Partitionen entsprechen sollte. Das heißt Eine riesige .gz-Datei wird in eine einzelne Partition eingelesen. Wenn ich jedoch eine ...
Parameter für implizites pyspark.ml-ALS-Matrixfaktorisierungsmodell über pyspark.ml einstellen CrossValidator
Ich versuche, die Parameter eines ALS-Matrixfaktorisierungsmodells zu optimieren, das implizite Daten verwendet. Dazu versuche ich, mit pyspark.ml.tuning.CrossValidator ein Parameterraster zu durchlaufen und das beste Modell auszuwählen. Ich ...