Suchergebnisse für Anfrage "apache-spark"
Wie kann ich Pyspark-RDDs mit R-Funktionen partitionieren?
import rpy2.robjects as robjects dffunc = sc.parallelize([(0,robjects.r.rnorm),(1,robjects.r.runif)]) dffunc.collect() Ausgänge [(0, <rpy2.rinterface.SexpClosure - Python:0x7f2ecfc28618 / R:0x26abd18>), (1, <rpy2.rinterface.SexpClosure - ...
So berechnen Sie die kumulative Summe mit sqlContext
Ich weiß, wir können @ verwendFensterfunktion in pyspark [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , um die kumulative Summe zu berechnen. Windows wird jedoch nur in HiveContext und nicht in ...
Zuverlässigkeitsprobleme mit Checkpointing / WAL in Spark Streaming 1.6.0
Beschreibun Wir haben eine Spark Streaming 1.5.2-Anwendung in Scala, die JSON-Ereignisse aus einem Kinesis Stream liest, einige Transformationen / Aggregationen durchführt und die Ergebnisse in verschiedene S3-Präfixe schreibt. Das aktuelle ...
Warum läuft mein Spark langsamer als reines Python? Leistungsvergleic
Spark Neuling hier. Ich habe versucht, mit Spark eine Pandas-Aktion für meinen Datenrahmen auszuführen, und überraschenderweise ist sie langsamer als reines Python (d. H. Mit dem Pandas-Paket in Python). Folgendes habe ich getan: 1) In ...
Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id ist bereits gesetzt
Ich verwende spark 1.6 und stoße auf das obige Problem, wenn ich den folgenden Code ausführe: // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SaveMode import ...
Spark Dataframes UPSERT an Postgres-Tabelle
Ich verwende Apache Spark DataFrames, um zwei Datenquellen zu verbinden und das Ergebnis als anderen DataFrame abzurufen. Ich möchte das Ergebnis in eine andere Postgres-Tabelle schreiben. Ich sehe diese Option: myDataFrame.write.jdbc(url, ...
SPARK, ML, Tuning, CrossValidator: Zugriff auf die Metriken
Um einen NaiveBayes-Klassifikator für mehrere Klassen zu erstellen, verwende ich einen CrossValidator, um die besten Parameter in meiner Pipeline auszuwählen: val cv = new CrossValidator() ...
Wie werden verschachtelte Listen in PySpark reduziert?
Ich habe eine RDD-Struktur wie: rdd = [[[1],[2],[3]], [[4],[5]], [[6]], [[7],[8],[9],[10]]]und ich möchte, dass es wird: rdd = [1,2,3,4,5,6,7,8,9,10]Wie schreibe ich eine Map oder reduziere die Funktion, damit sie funktioniert?
Pyspark DataFrame UDF in Textspalte
Ich versuche, einige Unicode-Spalten in einem PySpark-DataFrame mit NLP-Text zu bereinigen. Ich habe es in Spark 1.3, 1.5 und 1.6 versucht und kann anscheinend nichts für mein Leben zum Laufen bringen. Ich habe auch versucht, Python 2.7 ...
Spark, ML, StringIndexer: Umgang mit unsichtbaren Labels
ein Ziel ist es, einen Multicalss-Klassifikator zu erstelle Ich habe eine Pipeline für die Feature-Extraktion erstellt und sie enthält als ersten Schritt einen StringIndexer-Transformator, um jeden Klassennamen einer Bezeichnung zuzuordnen. ...