Resultados de la búsqueda a petición "scala"

1 la respuesta

Lectura de la enorme colección MongoDB de Spark con la ayuda de Worker

Quiero leer una gran colección de MongoDB de Spark, crear un RDD persistente y hacer más análisis de datos sobre él. ¿Hay alguna manera de leer los datos de MongoDB más rápido? He intentado con el enfoque de MongoDB Java + Casbah ¿Puedo usar el ...

5 la respuesta

¿Qué ThreadPool en Java debo usar?

Hay una gran cantidad de tareas. Cada tarea pertenece a un solo grupo. El requisito es que cada grupo de tareas debe ejecutarse en serie al igual que en un solo subproceso y el rendimiento debe maximizarse en un entorno de múltiples núcleos (o ...

4 la respuesta

Iterando forma circular

Necesito iterar a través de una Lista pero de forma circular. También necesito agregar nuevos elementos a la lista e iterar sobre todos los elementos (elementos antiguos y nuevos), ¿cómo lo hago? ¿Hay alguna estructura de datos para ellos?

2 la respuesta

¿Cómo particionar por clave en Spark?

Dado que los documentos de HashPartitioner dicen: [HashPartitioner] implementa particionamiento basado en hash utilizando Object.hashCode de Java. Di que quiero particionarDeviceData por estokind. case class DeviceData(kind: String, time: ...

3 la respuesta

¿Cuál es la mejor manera de definir métodos personalizados en un DataFrame?

Necesito definir métodos personalizados en DataFrame. ¿Cuál es la mejor manera de hacerlo? La solución debe ser escalable, ya que tengo la intención de definir un número significativo de métodos personalizados. Mi enfoque actual es crear una ...

1 la respuesta

Scala Spark: divide la columna de vector en columnas separadas en un Spark DataFrame

Tengo un Spark DataFrame donde tengo una columna con valores vectoriales. Los valores vectoriales son todos n-dimensionales, es decir, con la misma longitud. También tengo una lista de nombres de columnaArray("f1", "f2", "f3", ..., "fn"), cada ...

1 la respuesta

La regresión logística de la tubería Spark ML produce predicciones mucho peores que R GLM

Utilicé ML PipeLine para ejecutar modelos de regresión logística, pero por algunas razones obtuve peores resultados que R. Hice algunas investigaciones y la única publicación que encontré que está relacionada con este problema ...

1 la respuesta

Cómo filtrar un marco de datos de chispa contra otro marco de datos

Estoy tratando de filtrar un marco de datos contra otro: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id")Ahora quiero ...

2 la respuesta

¿Por qué Scala se queja de herencia ilegal cuando hay tipos sin procesar en la jerarquía de clases?

Estoy escribiendo un contenedor que toma un ScalaObservableBuffer [http://www.scala-lang.org/api/current/scala/collection/mutable/ObservableBuffer.html] y dispara eventos compatibles con elEnlace de datos de Eclipse / ...

4 la respuesta

¿Qué está mal con `unionAll` de Spark` DataFrame`?

Usando Spark 1.5.0 y con el siguiente código, espero unionAll to unionDataFrames según su nombre de columna. En el código, estoy usando un poco de FunSuite para pasar SparkContextsc: object Entities { case class A (a: Int, b: Int) case class B ...