Suchergebnisse für Anfrage "apache-spark"
Speichern Spark-Datenframe als dynamisch partitionierte Tabelle in Hive
Ich habe eine Beispielanwendung, die arbeitet, um aus CSV-Dateien in einen Datenrahmen zu lesen. Der Datenrahmen kann mit der Methode @ im Parkettformat in einer Hive-Tabelle gespeichert werdedf.saveAsTable(tablename,mode). Der obige Code ...
spark Treiber nicht gefunden
Ich versuche, einen Datenrahmen mit spark auf sqlserver zu schreiben. Ich benutze die Methode write for dataframewriter, um auf den SQL Server zu schreiben. Mit DriverManager.getConnection kann ich eine Verbindung zu sqlserver herstellen und ...
Wie kann ich Spark zwingen, Code auszuführen?
Wie kann ich Spark zwingen, einen Aufruf von map auszuführen, auch wenn er der Meinung ist, dass er aufgrund seiner verzögerten Auswertung nicht ausgeführt werden muss? Ich habe versucht, @ zu setzcache() mit dem Kartenaufruf, aber das reicht ...
Wie exportiere ich einen Tabellendatenrahmen in PySpark nach csv?
Ich verwende Spark 1.3.1 (PySpark) und habe eine Tabelle mit einer SQL-Abfrage generiert. Ich habe jetzt ein Objekt, das ein @ iDataFrame. Ich möchte dieses @ exportierDataFrame Objekt (ich habe es "Tabelle" genannt) in eine CSV-Datei, damit ich ...
Was ist effizient, Dataframe oder RDD oder hiveql?
ch bin ein Neuling bei Apache Spar Mein Job liest zwei CSV-Dateien, wählt bestimmte Spalten aus, führt sie zusammen, aggregiert sie und schreibt das Ergebnis in eine einzelne CSV-Datei. Beispielsweise CSV1name,age,deparment_id ...
Wie finde ich Median und Quantile mit Spark
Wie kann ich den Median eines @ findeRDD von Ganzzahlen mit einer verteilten Methode, IPython und Spark? DasRDD ist ungefähr 700.000 Elemente und daher zu groß, um den Median zu sammeln und zu finden. Diese Frage ähnelt dieser Frage. Die Antwort ...
Sparse Vector vs Dense Vector
Wie erstelle ichSparseVector und dichte Vektordarstellungen wenn dasDenseVector ist: denseV = np.array([0., 3., 0., 4.])Was wird die Sparse Vector-Darstellung sein?
Wie kann man über Spark SQL als verteilte JDBC-Abfrage-Engine auf RDD-Tabellen zugreifen?
ei @Several Postings on Stackoverflow werden teilweise Informationen zum Zugriff auf RDD-Tabellen über Spark SQL als JDBC Distributed Query Engine angezeigt. Daher möchte ich die folgenden Fragen stellen, um vollständige Informationen dazu zu ...
Unterschied zwischen Funken Vektoren und Scala unveränderlichen Vektor?
Ich schreibe ein Projekt für Spark 1.4 in Scala und bin gerade dabei, meine anfänglichen Eingabedaten in @ umzuwandelspark.mllib.linalg.Vectors undscala.immutable.Vector, mit dem ich später in meinem Algorithmus arbeiten möchte. Könnte jemand ...
Spark MLlib: Klassifikatoren für jede Datengruppe erstellen
Ich habe Vektoren (LabeledPoint-s) mit einer Gruppennummer markiert. Für jede Gruppe muss ich @ erstellein separate Logistic Regression Classifier: import org.apache.log4j.{Level, Logger} ...