Suchergebnisse für Anfrage "apache-spark"
Wie überprüfe ich, ob sich Spark RDD im Speicher befindet?
Ich habe eine Instanz von org.apache.spark.rdd.RDD [MyClass]. Wie kann ich programmgesteuert überprüfen, ob die Instanz \ inmemory persistent ist?
Wie arbeitet Spark mit CPython zusammen?
Ich habe ein Akka-System geschrieben inscala das muss zu einigen rufenPython Code, unter Berufung aufPandas undNumpy, also kann ich nicht einfach Jython verwenden. Ich habe festgestellt, dass Spark CPython auf seinen Arbeitsknoten verwendet. ...
elchen Rang hat der ALS-Algorithmus für maschinelles Lernen in Apache Spark Mlli
Ich wollte ein Beispiel für einen ALS-Algorithmus für maschinelles Lernen ausprobieren. Und mein Code funktioniert einwandfrei, allerdings verstehe ich den Parameter @ nicrank wird im Algorithmus verwendet. Ich habe folgenden Code in Java // ...
Apache Spark, fügen Sie eine berechnete Spalte "CASE WHEN… ELSE…" zu einem vorhandenen DataFrame @ hin
Ich versuche, einem vorhandenen DataFrame mithilfe von Scala-APIs eine berechnete Spalte "CASE WHEN ... ELSE ..." hinzuzufügen. Datenrahmen wird gestartet: color Red Green Blue Gewünschter Datenrahmen (SQL-Syntax: CASE WHEN color == Green THEN ...
Ausführung des aktuellen Jobs in Spark
Ich habe Eingabedaten mit dem folgenden Format verwendet: 0 1 2 3 4 5 … 14 Input Location: hdfs://localhost:9000/Input/datasource Ich habe den folgenden Codeausschnitt verwendet, um RDD als Textdatei mit mehreren Threads zu speichern: package ...
Spark rdd schreibe in globale Liste
Wie schreibe ich mit rdd in eine globale Liste? Li = [] Fn(list): If list.value == 4: Li.append(1) rdd.mapValues(lambda x:fn(x)) Wenn ich versuche, Li zu drucken, ist das Ergebnis: [] Was ich versuche zu tun ist, eine andere globale Liste Li1 ...
Anwendungsbericht für application_ (Status: ACCEPTED) endet nie für Spark Submit (mit Spark 1.2.0 auf YARN)
Ich verwende Kinesis plus Spark-Anwendunghttps: //spark.apache.org/docs/1.2.0/streaming-kinesis-integration.htm [https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html] Ich laufe wie folgt Befehl auf ...
Wie filtere ich Dstream mit Transformationsoperation und externem RDD?
Ich benutztetransform -Methode in einem ähnlichen Anwendungsfall wie in @ beschriebTransform Operation abschnitt vonTransformations on ...
Warum Zeppelin Notebook keine Verbindung zu S3 herstellen kann
Ich habe installiertZeppeli [https://github.com/apache/incubator-zeppelin], auf meinem aws EC2-Computer, um eine Verbindung zu meinem Spark-Cluster herzustellen. Spark Version: Standalone: spark-1.2.1-bin-hadoop1.tgz Ich kann eine Verbindung ...
Wie verwende ich die JDBC-Quelle, um Daten in (Py) Spark zu schreiben und zu lesen?
Das Ziel dieser Frage ist es zu dokumentieren: Schritte, die zum Lesen und Schreiben von Daten mithilfe von JDBC-Verbindungen in PySpark erforderlich sind mögliche Probleme mit JDBC-Quellen und bekannten Lösungen it kleinen Änderungen ...