Resultados de la búsqueda a petición "apache-spark"
Spark MLlib: creación de clasificadores para cada grupo de datos
He etiquetado los vectores (La LabelPoint-s) marcados por algún número de grupo. Para cada grupo necesito crearuna separacion Clasificador de regresión logística: import org.apache.log4j.{Level, Logger} ...
¿Cómo convertir DataFrame a Json?
Tengo un gran archivo Json, una pequeña parte de la siguiente manera: { "socialNews": [{ "adminTagIds": "", "fileIds": "", "departmentTagIds": "", ........ ........ "comments": [{ "commentId": "", "newsId": "", "entityId": "", .... .... }] }] ...
¿Cómo acceder a las tablas RDD a través de Spark SQL como un motor de consultas distribuidas JDBC?
Varias publicaciones en stackoverflow tienen respuestas con información parcial sobre cómo acceder a las tablas RDD a través de Spark SQL como un motor de consultas distribuidas JDBC. Así que me gustaría hacer las siguientes preguntas para ...
Ejemplo de Spark Word2Vec usando el archivo text8
Estoy tratando de ejecutar este ejemplo desde apache.spark.org (el código está debajo y el tutorial completo está ...
Explicación del método de plegado de la chispa RDD
Estoy ejecutando Spark-1.4.0 preconstruido para Hadoop-2.4 (en modo local) para calcular la suma de cuadrados de un DoubleRDD. Mi código Scala parece sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v)Y dio un ...
No se puede declarar el acumulador de tipo cadena
Estoy tratando de definir una variable acumuladora de tipo String en Scala shell (controlador) pero sigo recibiendo el siguiente error: - scala> val myacc = sc.accumulator("Test") <console>:21: error: could not find implicit value for parameter ...
¿Cómo imprimir la variable del acumulador desde dentro de la tarea (parece "funcionar" sin llamar al método de valor)?
Sé que las variables del acumulador son 'solo escritura' desde el punto de vista de las tareas, cuando están en ejecución en los nodos de trabajo. Estaba haciendo algunas pruebas sobre esto y me di cuenta de que soy capaz de imprimir el valor del ...
¿Cómo crear un DataFrame vacío con un esquema especificado?
Quiero crear enDataFrame con un esquema especificado en Scala. He intentado usar la lectura JSON (quiero decir, leer un archivo vacío) pero no creo que sea la mejor práctica.
Spark da un StackOverflowError cuando se entrena usando ALS
Cuando intentaba entrenar un modelo de aprendizaje automático usando ALS en MLLib de Spark, seguía recibiendo un StackoverflowError. Aquí hay una pequeña muestra del seguimiento de la pila: Traceback (most recent call last): File ...
Uso del método de chispa DataFrame "como"
estoy mirando aspark.sql.DataFrame [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame] documentación. Ahi esta def as(alias: String): DataFrame Returns a new DataFrame with an alias set. Since 1.3.0¿Cuál ...