Suchergebnisse für Anfrage "apache-spark"
Wie speichere ich einen Spark-Datenrahmen als Textdatei ohne Zeilen in Pyspark?
Ich habe einen Datenrahmen "df" mit den Spalten ['name', 'age']. Ich habe den Datenrahmen mit @ gespeicherdf.rdd.saveAsTextFile("..") um es als rdd zu speichern. Ich habe die gespeicherte Datei geladen und collect () gibt mir das folgende ...
Ausgabe von Dataproc Spark-Auftrag in Google Cloud Logging
Gibt es eine Möglichkeit, die Ausgabe von Dataproc Spark-Jobs an die Google Cloud-Protokollierung zu senden? Wie in den Dataproc-Dokumenten erklärt [https://cloud.google.com/dataproc/driver-output] Die Ausgabe des Job-Treibers (des Masters für ...
Spark: Nicht genügend Speicherplatz, um Rot im Container zwischenzuspeichern, obwohl noch viel Gesamtspeicher vorhanden ist.
Ich habe einen Cluster mit 30 Knoten, jeder Knoten hat 32 Kerne und 240 G Speicher (AWS cr1.8xlarge-Instanz). Ich habe folgende Konfigurationen: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90 ...
Wie werden Werte nach groupBy in einer Sammlung zusammengefasst?
Ich habe einen Datenrahmen mit Schema als solches: [visitorId: string, trackingIds: array<string>, emailIds: array<string>]Suchen Sie nach einer Möglichkeit, diesen Datenrahmen nach Besucher-ID zu gruppieren (oder möglicherweise zu rollen?), ...
Wie benenne ich Felder in einem DataFrame um, der verschachteltem JSON entspricht?
Ich versuche, in einer mobilen App empfangene JSON-Ereignisse (wie Klicks usw.) mit @ zu verarbeitespark 1.5.2. Es gibt mehrere App-Versionen und die Struktur der Ereignisse variiert je nach Version. Say Version 1 hat die folgende Struktur: { ...
Spark 1.5.1 funktioniert nicht mit Hive JDBC 1.2.0
Ich versuche, eine Hive-Abfrage mit Spark 1.5.1 im Standalone-Modus und Hive 1.2.0 JDBC-Version auszuführen. Hier ist mein Code: private static final String HIVE_DRIVER = "org.apache.hive.jdbc.HiveDriver"; private static final String ...
Gibt es eine Möglichkeit, die ersten 1000 Zeilen eines Spark-Datenrahmens zu übernehmen?
Ich benutze dasrandomSplitFunktion, um eine kleine Menge eines Datenrahmens für Entwicklungszwecke zu erhalten, und am Ende nehme ich nur den ersten df, der von dieser Funktion zurückgegeben wird. val df_subset = ...
Wann sind Dateien "aufteilbar"?
Wenn ich spark verwende, stoße ich manchmal auf eine große Datei in einem BIENENSTOC table, und ich versuche manchmal, viele kleinere Dateien in einer HIVE-Tabelle zu verarbeiten. Ich verstehe, dass beim Optimieren von Spark-Jobs die ...
Spark Word2vec Vektor Mathematik
Ich war auf der Suche nachBeispie [http://spark.apache.org/docs/latest/mllib-feature-extraction.html#example] der Spark-Site für Word2Vec: val input = sc.textFile("text8").map(line => line.split(" ").toSeq) val word2vec = new Word2Vec() val ...
Wie finde ich heraus, welcher Java / Scala-Thread eine Datei gesperrt hat?
In Kürze Wie finde ich heraus, welcher Java / Scala-Thread eine Datei gesperrt hat? Ich weiß, dass eine Klasse / ein Thread in JVM eine konkrete Datei gesperrt hat (überlappt einen Dateibereich), aber ich weiß nicht, wie. Es ist ...