Suchergebnisse für Anfrage "apache-spark"
So filtern Sie Daten mithilfe von Fensterfunktionen in spark
Ich habe folgende Daten: rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c 8 2 11 a 9 2 12 c Jetzt wollte ich die Daten so filtern, dass ich die Zeilen 6 und 7 entfernen kann, da ich für eine bestimmte UID nur eine ...
Issues probiert ein Beispiel in der Spark-Shell aus
Wollte Spark 2.0 ausprobieren, aber als ich versuchte, den folgenden Code von @ aus ...
Vergleichsoperator in PySpark (ungleich /! =)
Ich versuche, alle Zeilen in einem Datenrahmen zu erhalten, in denen zwei Flags auf "1" gesetzt sind, und anschließend alle diejenigen, in denen nur einer von zwei auf "1" gesetzt ist, und der andereNICHT GLEIC bis 1' Mit dem folgenden Schema ...
Apache Spark Umgang mit verzerrten Daten
Ich habe zwei Tische, die ich zusammenfügen möchte. Einer von ihnen hat einen sehr schlechten Datenfehler. Dies führt dazu, dass mein Spark-Job nicht parallel ausgeführt wird, da ein Großteil der Arbeit auf einer Partition ausgeführt wird. Ich ...
PySpark mit Jupyter Notebook integrieren
Ich verfolge diesesSeite? ˅ [https://www.dataquest.io/blog/pyspark-installation-guide/] um Jupyter Notebook, PySpark zu installieren und beides zu integrieren. Wenn ich das "Jupyter-Profil" erstellen musste, habe ich gelesen, ...
Scala: So erhalten Sie einen Zeilenbereich in einem Datenrahmen
Ich habe einDataFrame Erstellt von runningsqlContext.read einer Parkettdatei. DasDataFrame besteht aus 300 M Zeilen. Ich muss diese Zeilen als Eingabe für eine andere Funktion verwenden, möchte sie jedoch in kleineren Stapeln ausführen, um ...
Compute Kosten von Kmeans
Ich benutze diesesModel [https://github.com/yahoo/lopq/blob/master/python/lopq/model.py], was nicht von mir geschrieben wurde. Um die Zentroide vorherzusagen, musste ich dies tun: model = cPickle.load(open("/tmp/model_centroids_128d_pkl.lopq")) ...
Filterfunken / Scala-Datenrahmen, wenn Spalte in Gruppe vorhanden ist
Ich verwende Spark 1.4.0, das habe ich bisher: data.filter($"myColumn".in(lit("A"), lit("B"), lit("C"), ...))Die Funktionzündet [https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/functions.html#lit(java.lang.Object)] ...
Unausgeglichener Faktor von KMeans?
Edit: Die Antwort auf diese Frage wird ausführlich diskutiert in:Sum in Spark schlecht gegangen [https://stackoverflow.com/questions/39627773/sum-in-spark-gone-bad] ImCompute Kosten von ...
Spark bester Ansatz Datenrahmen nachschlagen, um die Leistung zu verbessern
Dataframe A (Millionen von Datensätzen) Eine der Spalten lautet create_date, modified_date Dataframe B 500-Datensätze haben Start_Datum und End_Datum Aktueller Ansatz: Select a.*,b.* from a join b on a.create_date between start_date and ...