Resultados de la búsqueda a petición "apache-spark"
Muestreo estratificado en Spark
Tengo un conjunto de datos que contiene datos de usuario y compra. Aquí hay un ejemplo, donde el primer elemento es userId, el segundo es productId y el tercero indica boolean. (2147481832,23355149,1) (2147481832,973010692,1) ...
¿Cómo leer y escribir varias tablas en paralelo en Spark?
En mi aplicación Spark, estoy tratando de leer varias tablas de RDBMS, haciendo un procesamiento de datos, luego escribo varias tablas en otro RDBMS de la siguiente manera (en Scala): val reading1 = sqlContext.load("jdbc", Map("url" -> myurl1, ...
¿Cómo guardar modelos de ML Pipeline a S3 o HDFS?
Estoy tratando de salvar miles de modelos producidos por ML Pipeline. Como se indica en la respuestaaquí [https://stackoverflow.com/questions/32121046/run-3000-random-forest-models-by-group-using-spark-mllib-scala-api] , los modelos se pueden ...
cómo cambiar una columna de marco de datos de tipo de cadena a tipo doble en pyspark
Tengo un marco de datos con una columna como String. Quería cambiar el tipo de columna a Tipo doble en PySpark. El siguiente es el camino que hice: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...
¿Cómo obtener detalles de palabras de TF Vector RDD en Spark ML Lib?
He creado la frecuencia de término usandoHashingTF en chispa Tengo el término frecuencias usandotf.transform por cada palabra Pero los resultados se muestran en este formato. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...
¿Cómo manejar características categóricas con spark-ml?
¿Cómo manejo datos categóricos con spark-ml y no spark-mllib ? Si bien la documentación no es muy clara, parece que los clasificadores, p.RandomForestClassifier, LogisticRegression, tener unfeaturesCol argumento, que especifica el nombre de la ...
¿Cuál debería ser el valor óptimo para spark.sql.shuffle.partitions o cómo aumentamos las particiones al usar Spark SQL?
Hola, estoy usando Spark SQL en realidadhiveContext.sql() que usa group by queries y me encuentro conOOM cuestiones. Entonces pensando en aumentar el valor despark.sql.shuffle.partitions de 200 por defecto a 1000 pero no está ayudando. Por favor, ...
SparkSQL: ¿Cómo lidiar con valores nulos en la función definida por el usuario?
Dada la Tabla 1 con una columna "x" de tipo String. Quiero crear la Tabla 2 con una columna "y" que es una representación entera de las cadenas de fecha dadas en "x". Esenciales mantenernull valores en la columna "y". Tabla 1 (Dataframe ...
Error al ejecutar el trabajo en Spark 1.4.0 con el módulo Jackson con ScalaObjectMapper
Estoy ejecutando un trabajo de chispa escrito en Scala 2.10.4 y ejecutándolo en el clúster Spark 1.4.0 (basado en HDFS y administrado con YARN) y usando los módulos Jackson versión 2.6.1 en el repositorio de Maven Al ejecutar el código ...
¿Qué significa setMaster `local [*]` en chispa?
Encontré un código para comenzar a generar localmente con: val conf = new SparkConf().setAppName("test").setMaster("local[*]") val ctx = new SparkContext(conf)Lo que hace el[*] ¿media?