Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Wie kann ich Pyspark-RDDs mit R-Funktionen partitionieren?

import rpy2.robjects as robjects dffunc = sc.parallelize([(0,robjects.r.rnorm),(1,robjects.r.runif)]) dffunc.collect() Ausgänge [(0, <rpy2.rinterface.SexpClosure - Python:0x7f2ecfc28618 / R:0x26abd18>), (1, <rpy2.rinterface.SexpClosure - ...

8 die antwort

So berechnen Sie die kumulative Summe mit sqlContext

Ich weiß, wir können @ verwendFensterfunktion in pyspark [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , um die kumulative Summe zu berechnen. Windows wird jedoch nur in HiveContext und nicht in ...

2 die antwort

Zuverlässigkeitsprobleme mit Checkpointing / WAL in Spark Streaming 1.6.0

Beschreibun Wir haben eine Spark Streaming 1.5.2-Anwendung in Scala, die JSON-Ereignisse aus einem Kinesis Stream liest, einige Transformationen / Aggregationen durchführt und die Ergebnisse in verschiedene S3-Präfixe schreibt. Das aktuelle ...

TOP-Veröffentlichungen

2 die antwort

Warum läuft mein Spark langsamer als reines Python? Leistungsvergleic

Spark Neuling hier. Ich habe versucht, mit Spark eine Pandas-Aktion für meinen Datenrahmen auszuführen, und überraschenderweise ist sie langsamer als reines Python (d. H. Mit dem Pandas-Paket in Python). Folgendes habe ich getan: 1) In ...

6 die antwort

Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id ist bereits gesetzt

Ich verwende spark 1.6 und stoße auf das obige Problem, wenn ich den folgenden Code ausführe: // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SaveMode import ...

8 die antwort

Spark Dataframes UPSERT an Postgres-Tabelle

Ich verwende Apache Spark DataFrames, um zwei Datenquellen zu verbinden und das Ergebnis als anderen DataFrame abzurufen. Ich möchte das Ergebnis in eine andere Postgres-Tabelle schreiben. Ich sehe diese Option: myDataFrame.write.jdbc(url, ...

4 die antwort

SPARK, ML, Tuning, CrossValidator: Zugriff auf die Metriken

Um einen NaiveBayes-Klassifikator für mehrere Klassen zu erstellen, verwende ich einen CrossValidator, um die besten Parameter in meiner Pipeline auszuwählen: val cv = new CrossValidator() ...

2 die antwort

Wie werden verschachtelte Listen in PySpark reduziert?

Ich habe eine RDD-Struktur wie: rdd = [[[1],[2],[3]], [[4],[5]], [[6]], [[7],[8],[9],[10]]]und ich möchte, dass es wird: rdd = [1,2,3,4,5,6,7,8,9,10]Wie schreibe ich eine Map oder reduziere die Funktion, damit sie funktioniert?

6 die antwort

Pyspark DataFrame UDF in Textspalte

Ich versuche, einige Unicode-Spalten in einem PySpark-DataFrame mit NLP-Text zu bereinigen. Ich habe es in Spark 1.3, 1.5 und 1.6 versucht und kann anscheinend nichts für mein Leben zum Laufen bringen. Ich habe auch versucht, Python 2.7 ...

10 die antwort

Spark, ML, StringIndexer: Umgang mit unsichtbaren Labels

ein Ziel ist es, einen Multicalss-Klassifikator zu erstelle Ich habe eine Pipeline für die Feature-Extraktion erstellt und sie enthält als ersten Schritt einen StringIndexer-Transformator, um jeden Klassennamen einer Bezeichnung zuzuordnen. ...