Suchergebnisse für Anfrage "apache-spark"

4 die antwort

Wie werden Null-Einträge in SparkR behandelt?

Ich habe einen SparkSQL DataFrame. Einige Einträge in diesen Daten sind leer, verhalten sich jedoch nicht wie NULL oder NA. Wie könnte ich sie entfernen? Irgendwelche Ideen n R kann ich sie leicht entfernen, aber in sparkR heißt es, dass es ein ...

2 die antwort

Spark Cache RDD wird in der Spark History WebUI - Storage @ nicht angezei

Ich benutzeSpark-1.4.1 imCDH-5.4.4. Ich benutzerdd.cache() Funktion, aber es zeigt nichts inStorage tab aufSpark History WebUI Hat jemand die gleichen Probleme? Wie man es repariert

0 die antwort

SparkR collect () und head () Fehler für Spark DataFrame: Argumente implizieren unterschiedliche Zeilenanzahl

Ich habe eine Parkettdatei vom HDFS-System gelesen: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = ...

TOP-Veröffentlichungen

2 die antwort

'Connection Refused' Fehler beim Ausführen von Spark Streaming auf lokalem Computer

Ich weiß, dass es bereits viele Threads zu Problemen gibt, bei denen "Funken-Streaming-Verbindung abgelehnt" wurde. Aber die meisten davon sind in Linux oder zumindest in HDFS. Ich führe dies auf meinem lokalen Laptop mit Windows aus. Ich ...

4 die antwort

SPARK Ist die Stichprobenmethode für Dataframes einheitlich?

Ich möchte zufällig eine ausgewählte Anzahl von Zeilen aus einem Datenrahmen auswählen, und ich weiß, welche Stichprobenmethode dies tut. Ich befürchte jedoch, dass meine Zufälligkeit eine einheitliche Stichprobe sein sollte. Ich habe mich also ...

4 die antwort

Setzen von Spark-Klassenpfaden auf EC2: spark.driver.extraClassPath und spark.executor.extraClassPath

Verringerung der Größe der Anwendungsdatei durch Bereitstellung von spark-classPath für Maven-Abhängigkeiten: Mein Cluster hat 3 ec2-Instanzen, auf denen Hadoop und Spark ausgeführt werden. Wenn ich JAR mit Maven-Abhängigkeiten erstelle, wird ...

2 die antwort

Immer mehr physischer Speicher für eine Spark-Anwendung in YARN

Ich führe eine Spark-Anwendung in YARN mit zwei Executoren mit Xms / Xmx als 32 GB und spark.yarn.excutor.memoryOverhead als 6 GB aus. Ich sehe, dass der physische Speicher der Anwendung immer größer wird und schließlich vom Node Manager ...

2 die antwort

Wie werden Tupel von (ursprüngliches Label, vorhergesagtes Label) auf Spark mit MLlib generiert?

Ich versuche, Vorhersagen mit dem Modell zu treffen, das ich über Spark von MLlib erhalten habe. Das Ziel besteht darin, Tupel von (orinalLabelInData, predictedLabel) zu generieren. Diese Tupel können dann zu Modellbewertungszwecken verwendet ...

4 die antwort

Wie füge ich eine Konfigurationsdatei zum Klassenpfad aller Spark-Executoren in Spark 1.2.0 hinzu?

Ich verwende Typesafe Config,https: //github.com/typesafehub/confi [https://github.com/typesafehub/config], um einen Spark-Job, der im Garncluster-Modus ausgeführt wird, mit einer Konfigurationsdatei zu parametrisieren. Das Standardverhalten von ...

4 die antwort

Spark Abfrage läuft sehr langsam

Ich habe einen Cluster auf AWS mit 2 Slaves und 1 Master. Alle Instanzen sind vom Typ m1.large. Ich verwende Spark Version 1.4. Ich vergleiche die Leistung von Funken über 4 m Daten, die von der Rotverschiebung stammen. Ich habe eine Anfrage über ...