Suchergebnisse für Anfrage "pyspark"

8 die antwort

Pyspark und PCA: Wie kann ich die Eigenvektoren dieser PCA extrahieren? Wie kann ich berechnen, wie viel Varianz sie erklären?

Ich reduziere die Dimensionalität einesSpark DataFrame mitPCA Modell mit Pyspark (mit demspark ml Bibliothek) wie folgt: pca = PCA(k=3, inputCol="features", outputCol="pca_features") model = pca.fit(data)wodata ist einSpark DataFrame mit einer ...

4 die antwort

Apache Spark löst NullPointerException aus, wenn ein fehlendes Feature gefunden wird

Ich habe ein bizarres Problem mit PySpark beim Indizieren von Stringspalten in Features. Hier ist meine tmp.csv-Datei: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1 wo ich einen ...

6 die antwort

Spark schnellste Weg zur Erstellung von RDD von Numpy Arrays

Meine Spark-Anwendung verwendet RDDs von Numpy-Arrays. Im Moment lese ich meine Daten aus AWS S3 und es wird als einfache Textdatei dargestellt, in der jede Zeile ein Vektor ist und jedes Element durch ein Leerzeichen getrennt ist. Beispiel: 1 2 ...

TOP-Veröffentlichungen

4 die antwort

Spark Vereinigung mehrerer RDDs

In meinem Schweinecode mache ich das: all_combined = Union relation1, relation2, relation3, relation4, relation5, relation 6.Ich möchte dasselbe mit spark machen. Allerdings sehe ich leider, dass ich es paarweise weiter machen muss: first = ...

0 die antwort

Numpy Fehler beim Drucken eines RDD in Spark mit Ipython

Ich versuche ein @ zu druckRDD usingSpark imIpython und wenn ich das tue bekomme ich diesen Fehler: --------------------------------------------------------------------------- Py4JJavaError Traceback (most recent call last) ...

2 die antwort

SparkSQL: Bedingte Summe mit zwei Spalten

Ich hoffe du kannst mir dabei helfen. Ich habe einen DF wie folgt: val df = sc.parallelize(Seq( (1, "a", "2014-12-01", "2015-01-01", 100), (2, "a", "2014-12-01", "2015-01-02", 150), (3, "a", "2014-12-01", "2015-01-03", 120), (4, "b", ...

4 die antwort

Anzahl der Nicht-NaN-Einträge in jeder Spalte des Spark-Datenrahmens mit Pyspark

Ich habe einen sehr großen Datensatz, der in Hive geladen wird. Es besteht aus etwa 1,9 Millionen Zeilen und 1450 Spalten. Ich muss die "Abdeckung" jeder Spalte bestimmen, dh den Bruchteil der Zeilen, die für jede Spalte Nicht-NaN-Werte ...

2 die antwort

Sparksql-Filterung (Auswahl mit WHERE-Klausel) mit mehreren Bedingungen

Hallo, ich habe das folgende Problem: numeric.registerTempTable("numeric").Alle Werte, nach denen ich filtern möchte, sind Literal-Null-Zeichenfolgen und keine N / A- oder Null-Werte. Ich habe diese drei Optionen ...

10 die antwort

Wie teste ich PySpark-Programme?

Mein aktueller Java / Spark Unit Test-Ansatz funktioniert (ausführlichHie [https://stackoverflow.com/a/32213314/2596363]) durch Instantiieren eines SparkContext mit "local" und Ausführen von Komponententests mit JUnit. Der Code muss so ...

10 die antwort

Wie importiere ich Pyspark in Anaconda

Ich versuche, @ zu importieren und zu verwendpyspark mit anaconda. Nach der Installation des Funkens und dem Einstellen des$SPARK_HOME Variable, die ich ausprobiert habe: $ pip install pysparkDies wird (natürlich) nicht funktionieren, da ...