Suchergebnisse für Anfrage "apache-spark"

2 die antwort

So filtern Sie Daten mithilfe von Fensterfunktionen in spark

Ich habe folgende Daten: rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c 8 2 11 a 9 2 12 c Jetzt wollte ich die Daten so filtern, dass ich die Zeilen 6 und 7 entfernen kann, da ich für eine bestimmte UID nur eine ...

2 die antwort

Issues probiert ein Beispiel in der Spark-Shell aus

Wollte Spark 2.0 ausprobieren, aber als ich versuchte, den folgenden Code von @ aus ...

4 die antwort

Vergleichsoperator in PySpark (ungleich /! =)

Ich versuche, alle Zeilen in einem Datenrahmen zu erhalten, in denen zwei Flags auf "1" gesetzt sind, und anschließend alle diejenigen, in denen nur einer von zwei auf "1" gesetzt ist, und der andereNICHT GLEIC bis 1' Mit dem folgenden Schema ...

TOP-Veröffentlichungen

2 die antwort

Apache Spark Umgang mit verzerrten Daten

Ich habe zwei Tische, die ich zusammenfügen möchte. Einer von ihnen hat einen sehr schlechten Datenfehler. Dies führt dazu, dass mein Spark-Job nicht parallel ausgeführt wird, da ein Großteil der Arbeit auf einer Partition ausgeführt wird. Ich ...

4 die antwort

PySpark mit Jupyter Notebook integrieren

Ich verfolge diesesSeite? ˅ [https://www.dataquest.io/blog/pyspark-installation-guide/] um Jupyter Notebook, PySpark zu installieren und beides zu integrieren. Wenn ich das "Jupyter-Profil" erstellen musste, habe ich gelesen, ...

2 die antwort

Scala: So erhalten Sie einen Zeilenbereich in einem Datenrahmen

Ich habe einDataFrame Erstellt von runningsqlContext.read einer Parkettdatei. DasDataFrame besteht aus 300 M Zeilen. Ich muss diese Zeilen als Eingabe für eine andere Funktion verwenden, möchte sie jedoch in kleineren Stapeln ausführen, um ...

2 die antwort

Compute Kosten von Kmeans

Ich benutze diesesModel [https://github.com/yahoo/lopq/blob/master/python/lopq/model.py], was nicht von mir geschrieben wurde. Um die Zentroide vorherzusagen, musste ich dies tun: model = cPickle.load(open("/tmp/model_centroids_128d_pkl.lopq")) ...

4 die antwort

Filterfunken / Scala-Datenrahmen, wenn Spalte in Gruppe vorhanden ist

Ich verwende Spark 1.4.0, das habe ich bisher: data.filter($"myColumn".in(lit("A"), lit("B"), lit("C"), ...))Die Funktionzündet [https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/functions.html#lit(java.lang.Object)] ...

2 die antwort

Unausgeglichener Faktor von KMeans?

Edit: Die Antwort auf diese Frage wird ausführlich diskutiert in:Sum in Spark schlecht gegangen [https://stackoverflow.com/questions/39627773/sum-in-spark-gone-bad] ImCompute Kosten von ...

4 die antwort

Spark bester Ansatz Datenrahmen nachschlagen, um die Leistung zu verbessern

Dataframe A (Millionen von Datensätzen) Eine der Spalten lautet create_date, modified_date Dataframe B 500-Datensätze haben Start_Datum und End_Datum Aktueller Ansatz: Select a.*,b.* from a join b on a.create_date between start_date and ...