Suchergebnisse für Anfrage "apache-spark"

2 die antwort

eispiel für @Spark-Metriken in Wordcount

Ich lese den Abschnitt Metriken aufspark website [http://spark.apache.org/docs/1.3.1/monitoring.html]. Ich möchte es am wordcount-Beispiel ausprobieren, ich kann es nicht zum Laufen bringen. spark / conf / metrics.properties: # Enable CsvSink ...

6 die antwort

Wie verwende ich Scala und Python in einem Spark-Projekt?

Ist das möglich @ zu leitSpark RDD zu Python? Weil ich eine Python-Bibliothek benötige, um meine Daten zu berechnen, aber mein Haupt-Spark-Projekt basiert auf Scala. Gibt es eine Möglichkeit, beide zu mischen oder Python auf denselben ...

2 die antwort

Encode und Assemblieren mehrerer Funktionen in PySpark

Ich habe eine Python-Klasse, mit der ich einige Daten in Spark lade und verarbeite. Unter anderem muss ich eine Liste von Dummy-Variablen generieren, die aus verschiedenen Spalten in einem Spark-Datenrahmen abgeleitet wurden. Mein Problem ist, ...

TOP-Veröffentlichungen

8 die antwort

Kann ich eine HDFS- (oder lokale) Nur-Text-Datei aus einem Spark-Programm schreiben, nicht aus einem RDD?

Ich habe ein Spark-Programm (in Scala) und einSparkContext. Ich schreibe einige Dateien mitRDD 'ssaveAsTextFile. Auf meinem lokalen Computer kann ich einen lokalen Dateipfad verwenden und er funktioniert mit dem lokalen Dateisystem. In meinem ...

6 die antwort

Konvertieren von RDD [org.apache.spark.sql.Row] in RDD [org.apache.spark.mllib.linalg.Vector]

Ich bin relativ neu bei Spark und Scala. Ich beginne mit dem folgenden Datenrahmen (einzelne Spalte aus einem dichten Doppelvektor): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: ...

6 die antwort

Spark Werte aus einer Zeile extrahieren

Ich habe den folgenden Datenrahmen val transactions_with_counts = sqlContext.sql( """SELECT user_id AS user_id, category_id AS category_id, COUNT(category_id) FROM transactions GROUP BY user_id, category_id""") Ich versuche, die Zeilen in ...

4 die antwort

Eine leere Spalte zu Spark DataFrame hinzufügen

Wie in @ erwähviel [https://stackoverflow.com/questions/29483498/append-a-column-to-data-frame-in-apache-spark-1-3] weitere Standorte [http://apache-spark-user-list.1001560.n3.nabble.com/Append-column-to-Data-Frame-or-RDD-td22385.html] as ...

8 die antwort

XML-Verarbeitung in Spark

Scenario: Meine Eingabe besteht aus mehreren kleinen XMLs und soll diese XMLs als RDDs lesen. Führen Sie einen Join mit einem anderen Dataset durch, bilden Sie eine RDD und senden Sie die Ausgabe als XML. Ist es möglich, XML mit spark zu lesen, ...

6 die antwort

Partition RDD in Tupel der Länge n

Ich bin relativ neu bei Apache Spark und Python und habe mich gefragt, ob so etwas wie das, was ich beschreiben werde, machbar ist. Ich habe eine RDD der Form [m1, m2, m3, m4, m5, m6 ....... mn] (Sie erhalten dies, wenn Sie rdd.collect () ...

4 die antwort

Wie kann RDD von (Schlüssel-, Wert-) Paaren wiederhergestellt werden, nachdem es in einer Textdatei gespeichert / gelesen wurde?

Ich habe meine RDD von (Schlüssel-, Wert-) Paaren mit saveAsTextFile in einer Textdatei gespeichert. Nachdem ich die Textdatei mit @ zurückgelesen hasc.textFile("filename.txt") Befehl endete ich mit Zeichenfolgen anstelle von (Schlüssel-, Wert-) ...