Suchergebnisse für Anfrage "apache-spark"
PySpark 1.5 So kürzen Sie den Zeitstempel von Sekunden auf die nächste Minute
Ich benutze PySpark. Ich habe eine Spalte ('dt') in einem Datenrahmen ('canon_evt'), die dies ein Zeitstempel ist. Ich versuche, Sekunden aus einem DateTime-Wert zu entfernen. Es wird ursprünglich als String aus Parkett eingelesen. Ich versuche ...
Wie formatiere ich die Spark-Python-Ausgabe?
(u'142578', (u'The-North-side-9890', (u' 12457896', 45.0))) (u'124578', (u'The-West-side-9091', (u' 14578217', 0.0)))Dies habe ich von Joining the zwei RDD basierend auf Ids das ist wie (key, (value_left, value_right)) mit diesem Spark Join. So ...
Spark fügt dem Datenrahmen eine neue Spalte mit dem Wert aus der vorherigen Zeile hinzu
Ich frage mich, wie ich das Folgende in Spark (Pyspark) erreichen kann Initial Dataframe: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+Resulting Dataframe: +--+---+-------+ |id|num|new_Col| ...
SparkR chinesisches Zeichen falsch anzeigen
Ich bin neu bei SparkR. Heutzutage ist ein Problem aufgetreten, das nach dem Konvertieren einer Datei mit chinesischen Zeichen in SparkR nicht mehr richtig angezeigt wird. So was city=c("北京","上海","杭州") A <- as.data.frame(city) A city 1 北京 2 上海 3 ...
ann ich in Apache Spark eine SparkContext.parallelize einfach wiederholen / verschachtel
Ich versuche, ein Genetikproblem zu modellieren, das wir zu lösen versuchen, und baue es schrittweise auf. Ich kann die PiAverage-Beispiele aus Spark-Beispielen erfolgreich ausführen. Dieses Beispiel "wirft Pfeile" auf einen Kreis (in unserem ...
Return RDD der größten N Werte von einem anderen RDD in SPARK
Ich versuche, eine RDD von Tupeln zu filtern, um die größten N Tupel basierend auf Schlüsselwerten zurückzugeben. Ich brauche das Rückgabeformat, um ein RDD zu sein. So die RDD: [(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')] gefiltert ...
Nesting Parallelisierungen in Spark? Was ist der richtige Ansatz?
NESTED PARALLELISATIONS? Sagen wir mal, ich versuche das Äquivalent von "verschachtelt für Schleifen" in Spark zu machen. So etwas wie in einer normalen Sprache, nehmen wir an, ich habe eine Routine in der inneren Schleife, die Pi nach Art und ...
Flatten Nested Spark Dataframe
Gibt es eine Möglichkeit, einen beliebig verschachtelten Spark-Dataframe zu reduzieren? Die meiste Arbeit, die ich sehe, ist für ein bestimmtes Schema geschrieben, und ich möchte in der Lage sein, einen Dataframe mit ...
SPARK ML, Naive Bayes-Klassifikator: Vorhersage mit hoher Wahrscheinlichkeit für eine Klasse
Ich benutze Spark ML, um einen Naive Ba zu optimieren, ja, einen Klassifikator für mehrere Klassen. Ich habe ungefähr 300 Kategorien und klassifiziere Textdokumente. Das Trainingsset ist ausgewogen genug und es gibt ungefähr 300 ...
Spark: Mehrere Kafka-Themen gleichzeitig bearbeiten
Ich benutzespark 1.5.2. Ich muss den Spark-Streaming-Job mit Kafka als Streaming-Quelle ausführen. Ich muss aus mehreren Themen in kafka lesen und jedes Thema anders verarbeiten. Ist es eine gute Idee, dies im selben Job zu tun? Wenn ja, sollte ...