Resultados de la búsqueda a petición "scala"

2 la respuesta

Iterar un RDD y actualizar una colección mutable devuelve una colección vacía

Soy nuevo en Scala y Spark y me gustaría recibir ayuda para comprender por qué el siguiente código no produce el resultado deseado. Estoy comparando dos tablas Mi esquema de salida deseado es: case class DiscrepancyData(fieldKey:String, ...

1 la respuesta

Especificar el nombre de archivo al guardar un DataFrame como CSV [duplicado]

Esta pregunta ya tiene una respuesta aquí: Spark dataframe guardar en un solo archivo en la ubicación hdfs [duplicado] [/questions/40792434/spark-dataframe-save-in-single-file-on-hdfs-location] 1 respuestaDigamos que tengo un Spark DF que quiero ...

2 la respuesta

Cómo excluir jar en el complemento final de ensamblaje sbt

Necesito excluir las dependencias de chispa y prueba de mi jar de ensamblaje final. Traté de usarprovider Pero no estaba funcionando. libraryDependencies ++= Seq("org.apache.spark" % "spark-core_2.11" % "2.0.1" % "provided")y ejecutarsbt ...

2 la respuesta

Devuelve Seq [Row] desde Spark-Scala UDF

Estoy usando Spark con Scala para hacer un procesamiento de datos. Tengo datos XML asignados al marco de datos. Estoy pasando una fila como parámetro a la UDF e intento extraer dos objetos de tipos complejos como una lista. Spark me está dando el ...

2 la respuesta

¿Por qué los objetos de caso son serializables y las clases de caso no?

Estoy jugando con este ejemplohttp://scala.sygneca.com/code/remoteactors [http://scala.sygneca.com/code/remoteactors]para aprender cómo funcionan los actores remotos en Scala (2.8.0). En particular, modifiqué ligeramente la forma en que los ...

1 la respuesta

El esquema para el tipo Any no es compatible

Estoy tratando de crear una chispa UDF para extraer un mapa de pares (clave, valor) de una clase de caso definida por el usuario. La función de escala parece funcionar bien, pero cuando trato de convertir eso a un UDF en spark2.0, me encuentro ...

3 la respuesta

¿Cómo calcular el mejor número de Particiones para la fusión?

Entonces, entiendo que en general uno debería usarcoalesce() cuando: el número de particiones disminuye debido a unfilter o alguna otra operación que pueda resultar en la reducción del conjunto de datos original (RDD, DF).coalesce() es útil para ...

1 la respuesta

Comprender los parámetros de tipo en Scala

Estoy tratando de entender los parámetros de tipo en Scala. Veamos el siguiente ejemplo general: def func1[T](a : T) : T = aEntiendo que func1 toma 1 parámetro de cualquier tipo y devuelve ese parámetro del mismo tipo. Lo que no entiendo es por ...

4 la respuesta

¿Por qué las funciones scala están limitadas a 22 parámetros?

No es que realmente haya llegado a ese límite, pero siempre me he preguntado: ¿por qué se detienen enFunction22/Tuple22. Restricción JVM? Elección arbitraria?

1 la respuesta

Spark ML VectorAssembler devuelve resultados extraños

Estoy experimentando un comportamiento muy extraño deVectorAssembler y me preguntaba si alguien más ha visto esto. Mi escenario es bastante sencillo. Analizo datos de unCSV archivo donde tengo algún estándarInt yDouble campos y también calculo ...