Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Beim Gruppieren nach Schlüssel geht dem Spark der Speicher aus

Ich versuche, eine einfache Umwandlung der allgemeinen Durchforstungsdaten unter Verwendung des Spark-Hosts auf einem EC2 unter Verwendung ...

17 die antwort

Importieren von Pyspark in Python-Shell

Dies ist eine Kopie der Frage einer anderen Person in einem anderen Forum, die nie beantwortet wurde. Ich dachte, ich würde sie hier noch einmal stellen, da ich das gleiche Problem habe. ...

4 die antwort

Fehler mit mehreren SparkContexts im Lernprogramm

Ich versuche, das grundlegende Spark + Python-Pyspark-Tutorial auszuführen - siehehttp://spark.apache.org/docs/0.9.0/quick-start.html [http://spark.apache.org/docs/0.9.0/quick-start.html] Wenn ich versuche, einen neuen SparkContext zu ...

TOP-Veröffentlichungen

3 die antwort

Wie starte ich graphx mit Python / Pyspark?

Ich versuche, Spark Graphx mit Python unter Verwendung von Pyspark auszuführen. Meine Installation scheint korrekt zu sein, da ich die Pyspark-Tutorials und die (Java) GraphX-Tutorials problemlos ausführen kann. Da GraphX vermutlich Teil ...

3 die antwort

Ausführen eines Pyspark-Skripts in EMR

Momentan automatisiere ich meine Apache Spark Pyspark-Skripte mithilfe von EC2-Clustern im vorkonfigurierten ./ec2-Verzeichnis von Sparks. Für Automatisierungs- und Planungszwecke möchte ich das Boto EMR-Modul verwenden, um Skripts an den Cluster ...

2 die antwort

Verwenden Sie Spark, um alle Dateien in einem Hadoop HDFS-Verzeichnis aufzulisten?

Ich möchte alle Textdateien in einem Hadoop-Verzeichnis durchlaufen und alle Vorkommen des Wortes "error" zählen. Gibt es eine Möglichkeit, ahadoop fs -ls /users/ubuntu/ Auflisten aller Dateien in einem Verzeichnis mit der Apache ...

4 die antwort

App-Ausführungs-ID für einen Spark-Job abrufen

Ich möchte, von wo aus ich einen Spark-Job ausführe, die eindeutige ID dieses Jobs erhalten. Über die Website des Spark-Masterknotens kann ich diese ID sehen. Es ist so etwas wie: ID: app-20140429125304-0452Gibt es eine Möglichkeit, dies zu ...

4 die antwort

Spark Context Textfile: Lädt mehrere Dateien

Ich muss mehrere Dateien verarbeiten, die auf verschiedene Verzeichnisse verteilt sind. Ich möchte alle diese in einem einzelnen RDD laden und dann Karte / Verkleinerung auf ihm durchführen. Ich sehe, dass SparkContext in der Lage ist, mithilfe ...

1 die antwort

Was ist der Unterschied zwischen einer RDD-Partition und einem Slice?

DasSpark-Programmierhandbuch [http://spark.apache.org/docs/latest/scala-programming-guide.html]Erwähnt Slices als Feature von RDDs (sowohl parallele Auflistungen als auch Hadoop-Datasets). ("Spark führt eine Task für jeden Slice des Clusters ...

6 die antwort

So schreiben Sie in Spark an CSV

Ich versuche, eine effektive Methode zum Speichern des Ergebnisses meines Spark-Jobs als CSV-Datei zu finden. Ich verwende Spark mit Hadoop und bis jetzt werden alle meine Dateien gespeichert alspart-00000. Irgendwelche Ideen, wie ich meinen ...