Suchergebnisse für Anfrage "pyspark"
Pyspark und PCA: Wie kann ich die Eigenvektoren dieser PCA extrahieren? Wie kann ich berechnen, wie viel Varianz sie erklären?
Ich reduziere die Dimensionalität einesSpark DataFrame mitPCA Modell mit Pyspark (mit demspark ml Bibliothek) wie folgt: pca = PCA(k=3, inputCol="features", outputCol="pca_features") model = pca.fit(data)wodata ist einSpark DataFrame mit einer ...
Apache Spark löst NullPointerException aus, wenn ein fehlendes Feature gefunden wird
Ich habe ein bizarres Problem mit PySpark beim Indizieren von Stringspalten in Features. Hier ist meine tmp.csv-Datei: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1 wo ich einen ...
Spark schnellste Weg zur Erstellung von RDD von Numpy Arrays
Meine Spark-Anwendung verwendet RDDs von Numpy-Arrays. Im Moment lese ich meine Daten aus AWS S3 und es wird als einfache Textdatei dargestellt, in der jede Zeile ein Vektor ist und jedes Element durch ein Leerzeichen getrennt ist. Beispiel: 1 2 ...
Spark Vereinigung mehrerer RDDs
In meinem Schweinecode mache ich das: all_combined = Union relation1, relation2, relation3, relation4, relation5, relation 6.Ich möchte dasselbe mit spark machen. Allerdings sehe ich leider, dass ich es paarweise weiter machen muss: first = ...
Numpy Fehler beim Drucken eines RDD in Spark mit Ipython
Ich versuche ein @ zu druckRDD usingSpark imIpython und wenn ich das tue bekomme ich diesen Fehler: --------------------------------------------------------------------------- Py4JJavaError Traceback (most recent call last) ...
SparkSQL: Bedingte Summe mit zwei Spalten
Ich hoffe du kannst mir dabei helfen. Ich habe einen DF wie folgt: val df = sc.parallelize(Seq( (1, "a", "2014-12-01", "2015-01-01", 100), (2, "a", "2014-12-01", "2015-01-02", 150), (3, "a", "2014-12-01", "2015-01-03", 120), (4, "b", ...
Anzahl der Nicht-NaN-Einträge in jeder Spalte des Spark-Datenrahmens mit Pyspark
Ich habe einen sehr großen Datensatz, der in Hive geladen wird. Es besteht aus etwa 1,9 Millionen Zeilen und 1450 Spalten. Ich muss die "Abdeckung" jeder Spalte bestimmen, dh den Bruchteil der Zeilen, die für jede Spalte Nicht-NaN-Werte ...
Sparksql-Filterung (Auswahl mit WHERE-Klausel) mit mehreren Bedingungen
Hallo, ich habe das folgende Problem: numeric.registerTempTable("numeric").Alle Werte, nach denen ich filtern möchte, sind Literal-Null-Zeichenfolgen und keine N / A- oder Null-Werte. Ich habe diese drei Optionen ...
Wie teste ich PySpark-Programme?
Mein aktueller Java / Spark Unit Test-Ansatz funktioniert (ausführlichHie [https://stackoverflow.com/a/32213314/2596363]) durch Instantiieren eines SparkContext mit "local" und Ausführen von Komponententests mit JUnit. Der Code muss so ...
Wie importiere ich Pyspark in Anaconda
Ich versuche, @ zu importieren und zu verwendpyspark mit anaconda. Nach der Installation des Funkens und dem Einstellen des$SPARK_HOME Variable, die ich ausprobiert habe: $ pip install pysparkDies wird (natürlich) nicht funktionieren, da ...