Resultados de la búsqueda a petición "apache-spark"
Spark Dataframes UPSERT a la tabla Postgres
Estoy usando Apache Spark DataFrames para unir dos fuentes de datos y obtener el resultado como otro DataFrame. Quiero escribir el resultado en otra tabla de Postgres. Veo esta opción: myDataFrame.write.jdbc(url, table, ...
¿Cómo convertir DataFrame a Dataset en Apache Spark en Java?
Puedo convertir DataFrame a Dataset en Scala muy fácil: case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.printSchemapero en la versión de Java no sé cómo convertir Dataframe a ...
¿Cómo puedo particionar los RDD de pyspark con funciones R?
import rpy2.robjects as robjects dffunc = sc.parallelize([(0,robjects.r.rnorm),(1,robjects.r.runif)]) dffunc.collect() Salidas [(0, <rpy2.rinterface.SexpClosure - Python:0x7f2ecfc28618 / R:0x26abd18>), (1, <rpy2.rinterface.SexpClosure - ...
Spark, ML, StringIndexer: manejo de etiquetas invisibles
Mi objetivo es construir un clasificador multicalss. He creado una tubería para la extracción de características e incluye como primer paso un transformador StringIndexer para asignar cada nombre de clase a una etiqueta, esta etiqueta se usará ...
SPARK, ML, Tuning, CrossValidator: accede a las métricas
Para construir un clasificador multiclase NaiveBayes, estoy usando un CrossValidator para seleccionar los mejores parámetros en mi tubería: val cv = new CrossValidator() .setEstimator(pipeline) .setEstimatorParamMaps(paramGrid) ...
error de chispa al cargar archivos del comodín S3
Estoy usando el shell pyspark e intento leer datos de S3 usando la función comodín de archivo de spark, pero obtengo el siguiente error: Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 1.2.0 /_/ ...
¿Cómo vincular PyCharm con PySpark?
Soy nuevo con apache spark y aparentemente instalé apache-spark con homebrew en mi macbook: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible ...
El trabajo Spark Mlib FPGrowth falla con un error de memoria
Tengo un caso de uso bastante simple, pero un conjunto de resultados potencialmente muy grande. Mi código hace lo siguiente (en pyspark shell): from pyspark.mllib.fpm import FPGrowth data ...
¿Cómo aplanar listas anidadas en PySpark?
Tengo una estructura RDD como: rdd = [[[1],[2],[3]], [[4],[5]], [[6]], [[7],[8],[9],[10]]]y quiero que se convierta: rdd = [1,2,3,4,5,6,7,8,9,10]¿Cómo escribo un mapa o reduzco la función para que funcione?
Cómo calcular la suma acumulativa usando sqlContext
Sé que podemos usarFunción de ventana en pyspark [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] para calcular la suma acumulativa. Pero Window solo se admite en HiveContext y no en SQLContext. Necesito ...