Suchergebnisse für Anfrage "apache-spark"

4 die antwort

PySpark 1.5 So kürzen Sie den Zeitstempel von Sekunden auf die nächste Minute

Ich benutze PySpark. Ich habe eine Spalte ('dt') in einem Datenrahmen ('canon_evt'), die dies ein Zeitstempel ist. Ich versuche, Sekunden aus einem DateTime-Wert zu entfernen. Es wird ursprünglich als String aus Parkett eingelesen. Ich versuche ...

4 die antwort

Wie formatiere ich die Spark-Python-Ausgabe?

(u'142578', (u'The-North-side-9890', (u' 12457896', 45.0))) (u'124578', (u'The-West-side-9091', (u' 14578217', 0.0)))Dies habe ich von Joining the zwei RDD basierend auf Ids das ist wie (key, (value_left, value_right)) mit diesem Spark Join. So ...

4 die antwort

Spark fügt dem Datenrahmen eine neue Spalte mit dem Wert aus der vorherigen Zeile hinzu

Ich frage mich, wie ich das Folgende in Spark (Pyspark) erreichen kann Initial Dataframe: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+Resulting Dataframe: +--+---+-------+ |id|num|new_Col| ...

TOP-Veröffentlichungen

2 die antwort

SparkR chinesisches Zeichen falsch anzeigen

Ich bin neu bei SparkR. Heutzutage ist ein Problem aufgetreten, das nach dem Konvertieren einer Datei mit chinesischen Zeichen in SparkR nicht mehr richtig angezeigt wird. So was city=c("北京","上海","杭州") A <- as.data.frame(city) A city 1 北京 2 上海 3 ...

2 die antwort

ann ich in Apache Spark eine SparkContext.parallelize einfach wiederholen / verschachtel

Ich versuche, ein Genetikproblem zu modellieren, das wir zu lösen versuchen, und baue es schrittweise auf. Ich kann die PiAverage-Beispiele aus Spark-Beispielen erfolgreich ausführen. Dieses Beispiel "wirft Pfeile" auf einen Kreis (in unserem ...

4 die antwort

Return RDD der größten N Werte von einem anderen RDD in SPARK

Ich versuche, eine RDD von Tupeln zu filtern, um die größten N Tupel basierend auf Schlüsselwerten zurückzugeben. Ich brauche das Rückgabeformat, um ein RDD zu sein. So die RDD: [(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')] gefiltert ...

6 die antwort

Nesting Parallelisierungen in Spark? Was ist der richtige Ansatz?

NESTED PARALLELISATIONS? Sagen wir mal, ich versuche das Äquivalent von "verschachtelt für Schleifen" in Spark zu machen. So etwas wie in einer normalen Sprache, nehmen wir an, ich habe eine Routine in der inneren Schleife, die Pi nach Art und ...

6 die antwort

Flatten Nested Spark Dataframe

Gibt es eine Möglichkeit, einen beliebig verschachtelten Spark-Dataframe zu reduzieren? Die meiste Arbeit, die ich sehe, ist für ein bestimmtes Schema geschrieben, und ich möchte in der Lage sein, einen Dataframe mit ...

2 die antwort

SPARK ML, Naive Bayes-Klassifikator: Vorhersage mit hoher Wahrscheinlichkeit für eine Klasse

Ich benutze Spark ML, um einen Naive Ba zu optimieren, ja, einen Klassifikator für mehrere Klassen. Ich habe ungefähr 300 Kategorien und klassifiziere Textdokumente. Das Trainingsset ist ausgewogen genug und es gibt ungefähr 300 ...

4 die antwort

Spark: Mehrere Kafka-Themen gleichzeitig bearbeiten

Ich benutzespark 1.5.2. Ich muss den Spark-Streaming-Job mit Kafka als Streaming-Quelle ausführen. Ich muss aus mehreren Themen in kafka lesen und jedes Thema anders verarbeiten. Ist es eine gute Idee, dies im selben Job zu tun? Wenn ja, sollte ...