Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Wie speichere ich einen Spark-Datenrahmen als Textdatei ohne Zeilen in Pyspark?

Ich habe einen Datenrahmen "df" mit den Spalten ['name', 'age']. Ich habe den Datenrahmen mit @ gespeicherdf.rdd.saveAsTextFile("..") um es als rdd zu speichern. Ich habe die gespeicherte Datei geladen und collect () gibt mir das folgende ...

4 die antwort

Ausgabe von Dataproc Spark-Auftrag in Google Cloud Logging

Gibt es eine Möglichkeit, die Ausgabe von Dataproc Spark-Jobs an die Google Cloud-Protokollierung zu senden? Wie in den Dataproc-Dokumenten erklärt [https://cloud.google.com/dataproc/driver-output] Die Ausgabe des Job-Treibers (des Masters für ...

0 die antwort

Spark: Nicht genügend Speicherplatz, um Rot im Container zwischenzuspeichern, obwohl noch viel Gesamtspeicher vorhanden ist.

Ich habe einen Cluster mit 30 Knoten, jeder Knoten hat 32 Kerne und 240 G Speicher (AWS cr1.8xlarge-Instanz). Ich habe folgende Konfigurationen: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90 ...

TOP-Veröffentlichungen

6 die antwort

Wie werden Werte nach groupBy in einer Sammlung zusammengefasst?

Ich habe einen Datenrahmen mit Schema als solches: [visitorId: string, trackingIds: array<string>, emailIds: array<string>]Suchen Sie nach einer Möglichkeit, diesen Datenrahmen nach Besucher-ID zu gruppieren (oder möglicherweise zu rollen?), ...

4 die antwort

Wie benenne ich Felder in einem DataFrame um, der verschachteltem JSON entspricht?

Ich versuche, in einer mobilen App empfangene JSON-Ereignisse (wie Klicks usw.) mit @ zu verarbeitespark 1.5.2. Es gibt mehrere App-Versionen und die Struktur der Ereignisse variiert je nach Version. Say Version 1 hat die folgende Struktur: { ...

2 die antwort

Spark 1.5.1 funktioniert nicht mit Hive JDBC 1.2.0

Ich versuche, eine Hive-Abfrage mit Spark 1.5.1 im Standalone-Modus und Hive 1.2.0 JDBC-Version auszuführen. Hier ist mein Code: private static final String HIVE_DRIVER = "org.apache.hive.jdbc.HiveDriver"; private static final String ...

2 die antwort

Gibt es eine Möglichkeit, die ersten 1000 Zeilen eines Spark-Datenrahmens zu übernehmen?

Ich benutze dasrandomSplitFunktion, um eine kleine Menge eines Datenrahmens für Entwicklungszwecke zu erhalten, und am Ende nehme ich nur den ersten df, der von dieser Funktion zurückgegeben wird. val df_subset = ...

2 die antwort

Wann sind Dateien "aufteilbar"?

Wenn ich spark verwende, stoße ich manchmal auf eine große Datei in einem BIENENSTOC table, und ich versuche manchmal, viele kleinere Dateien in einer HIVE-Tabelle zu verarbeiten. Ich verstehe, dass beim Optimieren von Spark-Jobs die ...

6 die antwort

Spark Word2vec Vektor Mathematik

Ich war auf der Suche nachBeispie [http://spark.apache.org/docs/latest/mllib-feature-extraction.html#example] der Spark-Site für Word2Vec: val input = sc.textFile("text8").map(line => line.split(" ").toSeq) val word2vec = new Word2Vec() val ...

6 die antwort

Wie finde ich heraus, welcher Java / Scala-Thread eine Datei gesperrt hat?

In Kürze Wie finde ich heraus, welcher Java / Scala-Thread eine Datei gesperrt hat? Ich weiß, dass eine Klasse / ein Thread in JVM eine konkrete Datei gesperrt hat (überlappt einen Dateibereich), aber ich weiß nicht, wie. Es ist ...