Resultados de la búsqueda a petición "apache-spark"

4 la respuesta

Spark Dataframes UPSERT a la tabla Postgres

Estoy usando Apache Spark DataFrames para unir dos fuentes de datos y obtener el resultado como otro DataFrame. Quiero escribir el resultado en otra tabla de Postgres. Veo esta opción: myDataFrame.write.jdbc(url, table, ...

2 la respuesta

¿Cómo convertir DataFrame a Dataset en Apache Spark en Java?

Puedo convertir DataFrame a Dataset en Scala muy fácil: case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.printSchemapero en la versión de Java no sé cómo convertir Dataframe a ...

1 la respuesta

¿Cómo puedo particionar los RDD de pyspark con funciones R?

import rpy2.robjects as robjects dffunc = sc.parallelize([(0,robjects.r.rnorm),(1,robjects.r.runif)]) dffunc.collect() Salidas [(0, <rpy2.rinterface.SexpClosure - Python:0x7f2ecfc28618 / R:0x26abd18>), (1, <rpy2.rinterface.SexpClosure - ...

5 la respuesta

Spark, ML, StringIndexer: manejo de etiquetas invisibles

Mi objetivo es construir un clasificador multicalss. He creado una tubería para la extracción de características e incluye como primer paso un transformador StringIndexer para asignar cada nombre de clase a una etiqueta, esta etiqueta se usará ...

2 la respuesta

SPARK, ML, Tuning, CrossValidator: accede a las métricas

Para construir un clasificador multiclase NaiveBayes, estoy usando un CrossValidator para seleccionar los mejores parámetros en mi tubería: val cv = new CrossValidator() .setEstimator(pipeline) .setEstimatorParamMaps(paramGrid) ...

3 la respuesta

error de chispa al cargar archivos del comodín S3

Estoy usando el shell pyspark e intento leer datos de S3 usando la función comodín de archivo de spark, pero obtengo el siguiente error: Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 1.2.0 /_/ ...

11 la respuesta

¿Cómo vincular PyCharm con PySpark?

Soy nuevo con apache spark y aparentemente instalé apache-spark con homebrew en mi macbook: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible ...

1 la respuesta

El trabajo Spark Mlib FPGrowth falla con un error de memoria

Tengo un caso de uso bastante simple, pero un conjunto de resultados potencialmente muy grande. Mi código hace lo siguiente (en pyspark shell): from pyspark.mllib.fpm import FPGrowth data ...

1 la respuesta

¿Cómo aplanar listas anidadas en PySpark?

Tengo una estructura RDD como: rdd = [[[1],[2],[3]], [[4],[5]], [[6]], [[7],[8],[9],[10]]]y quiero que se convierta: rdd = [1,2,3,4,5,6,7,8,9,10]¿Cómo escribo un mapa o reduzco la función para que funcione?

4 la respuesta

Cómo calcular la suma acumulativa usando sqlContext

Sé que podemos usarFunción de ventana en pyspark [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] para calcular la suma acumulativa. Pero Window solo se admite en HiveContext y no en SQLContext. Necesito ...