Suchergebnisse für Anfrage "apache-spark"
Daten von PySpark auf Redis schreiben
In Scala würden wir eine RDD an Redis schreiben, wie folgt: datardd.foreachPartition(iter => { val r = new RedisClient("hosturl", 6379) iter.foreach(i => { val (str, it) = i val map = it.toMap r.hmset(str, map) }) }) Ich habe versucht, dies in ...
Wie bekomme ich Wortdetails von TF Vector RDD in Spark ML Lib?
Ich habe Termhäufigkeit mit @ erstelHashingTF in Spark. Ich habe den Begriff Frequenzen mittf.transform für jedes Wort. Aber die Ergebnisse werden in diesem Format angezeigt. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...
Wie speichere ich Modelle von der ML-Pipeline in S3 oder HDFS?
Ich versuche, Tausende von Modellen zu retten, die von ML Pipeline hergestellt wurden. Wie in der Antwort @ angegebHie [https://stackoverflow.com/questions/32121046/run-3000-random-forest-models-by-group-using-spark-mllib-scala-api] können die ...
Exception: Socket konnte auf pyspark @ nicht geöffnet werd
Wenn ich versuche, eine einfache Verarbeitung in pyspark auszuführen, kann der Socket nicht geöffnet werden. >>> myRDD = sc.parallelize(range(6), 3) >>> sc.runJob(myRDD, lambda part: [x * x for x in part])Above löst eine Ausnahme aus - port ...
Stratified Sampling in Spark
Ich habe einen Datensatz, der Benutzer- und Kaufdaten enthält. In diesem Beispiel ist das erste Element userId, das zweite productId und das dritte boolean. (2147481832,23355149,1) (2147481832,973010692,1) ...
IntelliJ Idee 14: Symbolfunken kann nicht aufgelöst werden
Ich habe eine Abhängigkeit von Spark hergestellt, die in meinem ersten Projekt funktioniert hat. Wenn ich jedoch versuche, mit Spark ein neues Projekt zu erstellen, importiert mein SBT die externen Jars von org.apache.spark nicht. Daher gibt ...
Temporäre Tabellen aus Apache SQL Spark entfernen
Ich haberegistertemptable imApache Spark usingZeppelin unten: val hvacText = sc.textFile("...") case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String) val hvac = hvacText.map(s => ...
Was sollte der optimale Wert für spark.sql.shuffle.partitions sein oder wie erhöhen wir die Partitionen bei Verwendung von Spark SQL?
Hi, ich verwende eigentlich Spark SQLhiveContext.sql(), bei dem nach Abfragen gruppiert wird und ich auf @ stoOOM Probleme. Denken Sie also an den steigenden Wert vonspark.sql.shuffle.partitions von 200 auf 1000 voreingestellt, aber es hilft ...
"Schlechte Substitution" beim Senden eines Funkenauftrags an den Fadencluster
Ich mache einen Rauchtest gegen einen Garncluster mityarn-cluster als Master mit demSparkPi beispielprogramm. Hier ist die Befehlszeile: $SPARK_HOME/bin/spark-submit --master yarn-cluster --executor-memory 8G --executor-cores 240 --class ...
So ändern Sie die SparkContext-Eigenschaften in einer Interactive PySpark-Sitzung
Wie kann ich spark.driver.maxResultSize in der interaktiven Pyspark-Shell ändern? Ich habe den folgenden Code verwendet from pyspark import SparkConf, SparkContext conf = (SparkConf() .set("spark.driver.maxResultSize", "10g")) sc.stop() ...