Suchergebnisse für Anfrage "apache-spark"
Wie werden Null-Einträge in SparkR behandelt?
Ich habe einen SparkSQL DataFrame. Einige Einträge in diesen Daten sind leer, verhalten sich jedoch nicht wie NULL oder NA. Wie könnte ich sie entfernen? Irgendwelche Ideen n R kann ich sie leicht entfernen, aber in sparkR heißt es, dass es ein ...
Spark Cache RDD wird in der Spark History WebUI - Storage @ nicht angezei
Ich benutzeSpark-1.4.1 imCDH-5.4.4. Ich benutzerdd.cache() Funktion, aber es zeigt nichts inStorage tab aufSpark History WebUI Hat jemand die gleichen Probleme? Wie man es repariert
SparkR collect () und head () Fehler für Spark DataFrame: Argumente implizieren unterschiedliche Zeilenanzahl
Ich habe eine Parkettdatei vom HDFS-System gelesen: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = ...
'Connection Refused' Fehler beim Ausführen von Spark Streaming auf lokalem Computer
Ich weiß, dass es bereits viele Threads zu Problemen gibt, bei denen "Funken-Streaming-Verbindung abgelehnt" wurde. Aber die meisten davon sind in Linux oder zumindest in HDFS. Ich führe dies auf meinem lokalen Laptop mit Windows aus. Ich ...
SPARK Ist die Stichprobenmethode für Dataframes einheitlich?
Ich möchte zufällig eine ausgewählte Anzahl von Zeilen aus einem Datenrahmen auswählen, und ich weiß, welche Stichprobenmethode dies tut. Ich befürchte jedoch, dass meine Zufälligkeit eine einheitliche Stichprobe sein sollte. Ich habe mich also ...
Setzen von Spark-Klassenpfaden auf EC2: spark.driver.extraClassPath und spark.executor.extraClassPath
Verringerung der Größe der Anwendungsdatei durch Bereitstellung von spark-classPath für Maven-Abhängigkeiten: Mein Cluster hat 3 ec2-Instanzen, auf denen Hadoop und Spark ausgeführt werden. Wenn ich JAR mit Maven-Abhängigkeiten erstelle, wird ...
Immer mehr physischer Speicher für eine Spark-Anwendung in YARN
Ich führe eine Spark-Anwendung in YARN mit zwei Executoren mit Xms / Xmx als 32 GB und spark.yarn.excutor.memoryOverhead als 6 GB aus. Ich sehe, dass der physische Speicher der Anwendung immer größer wird und schließlich vom Node Manager ...
Wie werden Tupel von (ursprüngliches Label, vorhergesagtes Label) auf Spark mit MLlib generiert?
Ich versuche, Vorhersagen mit dem Modell zu treffen, das ich über Spark von MLlib erhalten habe. Das Ziel besteht darin, Tupel von (orinalLabelInData, predictedLabel) zu generieren. Diese Tupel können dann zu Modellbewertungszwecken verwendet ...
Wie füge ich eine Konfigurationsdatei zum Klassenpfad aller Spark-Executoren in Spark 1.2.0 hinzu?
Ich verwende Typesafe Config,https: //github.com/typesafehub/confi [https://github.com/typesafehub/config], um einen Spark-Job, der im Garncluster-Modus ausgeführt wird, mit einer Konfigurationsdatei zu parametrisieren. Das Standardverhalten von ...
Spark Abfrage läuft sehr langsam
Ich habe einen Cluster auf AWS mit 2 Slaves und 1 Master. Alle Instanzen sind vom Typ m1.large. Ich verwende Spark Version 1.4. Ich vergleiche die Leistung von Funken über 4 m Daten, die von der Rotverschiebung stammen. Ich habe eine Anfrage über ...