Suchergebnisse für Anfrage "apache-spark"
Beim Gruppieren nach Schlüssel geht dem Spark der Speicher aus
Ich versuche, eine einfache Umwandlung der allgemeinen Durchforstungsdaten unter Verwendung des Spark-Hosts auf einem EC2 unter Verwendung ...
Importieren von Pyspark in Python-Shell
Dies ist eine Kopie der Frage einer anderen Person in einem anderen Forum, die nie beantwortet wurde. Ich dachte, ich würde sie hier noch einmal stellen, da ich das gleiche Problem habe. ...
Fehler mit mehreren SparkContexts im Lernprogramm
Ich versuche, das grundlegende Spark + Python-Pyspark-Tutorial auszuführen - siehehttp://spark.apache.org/docs/0.9.0/quick-start.html [http://spark.apache.org/docs/0.9.0/quick-start.html] Wenn ich versuche, einen neuen SparkContext zu ...
Wie starte ich graphx mit Python / Pyspark?
Ich versuche, Spark Graphx mit Python unter Verwendung von Pyspark auszuführen. Meine Installation scheint korrekt zu sein, da ich die Pyspark-Tutorials und die (Java) GraphX-Tutorials problemlos ausführen kann. Da GraphX vermutlich Teil ...
Ausführen eines Pyspark-Skripts in EMR
Momentan automatisiere ich meine Apache Spark Pyspark-Skripte mithilfe von EC2-Clustern im vorkonfigurierten ./ec2-Verzeichnis von Sparks. Für Automatisierungs- und Planungszwecke möchte ich das Boto EMR-Modul verwenden, um Skripts an den Cluster ...
Verwenden Sie Spark, um alle Dateien in einem Hadoop HDFS-Verzeichnis aufzulisten?
Ich möchte alle Textdateien in einem Hadoop-Verzeichnis durchlaufen und alle Vorkommen des Wortes "error" zählen. Gibt es eine Möglichkeit, ahadoop fs -ls /users/ubuntu/ Auflisten aller Dateien in einem Verzeichnis mit der Apache ...
App-Ausführungs-ID für einen Spark-Job abrufen
Ich möchte, von wo aus ich einen Spark-Job ausführe, die eindeutige ID dieses Jobs erhalten. Über die Website des Spark-Masterknotens kann ich diese ID sehen. Es ist so etwas wie: ID: app-20140429125304-0452Gibt es eine Möglichkeit, dies zu ...
Spark Context Textfile: Lädt mehrere Dateien
Ich muss mehrere Dateien verarbeiten, die auf verschiedene Verzeichnisse verteilt sind. Ich möchte alle diese in einem einzelnen RDD laden und dann Karte / Verkleinerung auf ihm durchführen. Ich sehe, dass SparkContext in der Lage ist, mithilfe ...
Was ist der Unterschied zwischen einer RDD-Partition und einem Slice?
DasSpark-Programmierhandbuch [http://spark.apache.org/docs/latest/scala-programming-guide.html]Erwähnt Slices als Feature von RDDs (sowohl parallele Auflistungen als auch Hadoop-Datasets). ("Spark führt eine Task für jeden Slice des Clusters ...
So schreiben Sie in Spark an CSV
Ich versuche, eine effektive Methode zum Speichern des Ergebnisses meines Spark-Jobs als CSV-Datei zu finden. Ich verwende Spark mit Hadoop und bis jetzt werden alle meine Dateien gespeichert alspart-00000. Irgendwelche Ideen, wie ich meinen ...