Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Spark JoinWithCassandraTable auf dem TimeStamp-Partitionsschlüssel STUCK

Ich versuche, einen kleinen Teil einer großen C * -Tabelle zu filtern, indem ich Folgendes verwende: val snapshotsFiltered = sc.parallelize(startDate ...

4 die antwort

Spark mit PySpark Bilder lesen

Hallo, da habe ich eine Menge Bilder (niedrigere Millionen), auf denen ich klassifizieren muss. Ich benutze Spark und habe es geschafft, alle Bilder im Format @ einzulese(filename1, content1), (filename2, content2) ... in eine große RDD. images ...

18 die antwort

Beste Möglichkeit, den Maximalwert in einer Spark-Datenrahmenspalte zu ermitteln

Ich versuche, den besten Weg zu finden, um den größten Wert in einer Spark-Datenrahmenspalte zu erhalten. Betrachten Sie das folgende Beispiel: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() Welche ...

TOP-Veröffentlichungen

4 die antwort

Spark Abschlussargument bindend

ch arbeite mit Apache Spark in Scal Ich habe ein Problem beim Versuch, eine RDD mit Daten von einer zweiten RDD zu manipulieren. Ich versuche, die 2. RDD als Argument für eine Funktion zu übergeben, die gegen die erste RDD 'abgebildet' wird, ...

6 die antwort

spark sbt compile error libraryDependencies

1.2.0-bin-hadoop2.4 und meine Scala-Version ist2.11.7. Ich erhalte eine Fehlermeldung, daher kann ich sbt nicht verwenden. ~/sparksample$ sbtStarting sbt: invoke with -help for other options [info] Set current project to Spark Sample (in build ...

8 die antwort

Wie kann ich eine Broadcast-Variable im Spark-Streaming aktualisieren?

Ich habe, glaube ich, einen relativ häufigen Anwendungsfall für Funken-Streaming: Ich habe einen Strom von Objekten, die ich basierend auf einigen Referenzdaten filtern möchte Initial dachte ich, dass dies eine sehr einfache Sache wäre, mit ...

8 die antwort

Pyspark und PCA: Wie kann ich die Eigenvektoren dieser PCA extrahieren? Wie kann ich berechnen, wie viel Varianz sie erklären?

Ich reduziere die Dimensionalität einesSpark DataFrame mitPCA Modell mit Pyspark (mit demspark ml Bibliothek) wie folgt: pca = PCA(k=3, inputCol="features", outputCol="pca_features") model = pca.fit(data)wodata ist einSpark DataFrame mit einer ...

4 die antwort

Nullwerte in Spark DataFrame ersetzen

Ich habe hier eine Lösung gesehen, aber als ich es ausprobiert habe, funktioniert es bei mir nicht. Zunächst importiere ich eine cars.csv-Datei: val df = sqlContext.read .format("com.databricks.spark.csv") .option("header", "true") ...

0 die antwort

SparkR: Split-Apply-Combine im Dplyr-Stil für DataFrame

Unter dem vorherigen RDD-Paradigma könnte ich einen Schlüssel angeben und dann eine Operation den RDD-Elementen zuordnen, die jedem Schlüssel entsprechen. Ich sehe keinen klaren Weg, um dies mit DataFrame in SparkR ab 1.5.1 zu tun. Was ich tun ...

2 die antwort

Warum wird beim Herstellen einer Verbindung mit Spark Standalone aus einer Java-Anwendung die Meldung "Methoden können in einem angehaltenen SparkContext nicht aufgerufen werden" ausgegeben?

Ich habe Apache Spark 1.4.1 für Hadoop 2.6 und höher heruntergeladen. Ich habe zwei Ubuntu 14.04-Maschinen. Eine davon habe ich als Spark-Master mit einem einzelnen Slave festgelegt und auf der zweiten Maschine wird ein Spark-Slave ausgeführt. ...