Resultados de la búsqueda a petición "scala"
Iterar un RDD y actualizar una colección mutable devuelve una colección vacía
Soy nuevo en Scala y Spark y me gustaría recibir ayuda para comprender por qué el siguiente código no produce el resultado deseado. Estoy comparando dos tablas Mi esquema de salida deseado es: case class DiscrepancyData(fieldKey:String, ...
Especificar el nombre de archivo al guardar un DataFrame como CSV [duplicado]
Esta pregunta ya tiene una respuesta aquí: Spark dataframe guardar en un solo archivo en la ubicación hdfs [duplicado] [/questions/40792434/spark-dataframe-save-in-single-file-on-hdfs-location] 1 respuestaDigamos que tengo un Spark DF que quiero ...
Cómo excluir jar en el complemento final de ensamblaje sbt
Necesito excluir las dependencias de chispa y prueba de mi jar de ensamblaje final. Traté de usarprovider Pero no estaba funcionando. libraryDependencies ++= Seq("org.apache.spark" % "spark-core_2.11" % "2.0.1" % "provided")y ejecutarsbt ...
Devuelve Seq [Row] desde Spark-Scala UDF
Estoy usando Spark con Scala para hacer un procesamiento de datos. Tengo datos XML asignados al marco de datos. Estoy pasando una fila como parámetro a la UDF e intento extraer dos objetos de tipos complejos como una lista. Spark me está dando el ...
¿Por qué los objetos de caso son serializables y las clases de caso no?
Estoy jugando con este ejemplohttp://scala.sygneca.com/code/remoteactors [http://scala.sygneca.com/code/remoteactors]para aprender cómo funcionan los actores remotos en Scala (2.8.0). En particular, modifiqué ligeramente la forma en que los ...
El esquema para el tipo Any no es compatible
Estoy tratando de crear una chispa UDF para extraer un mapa de pares (clave, valor) de una clase de caso definida por el usuario. La función de escala parece funcionar bien, pero cuando trato de convertir eso a un UDF en spark2.0, me encuentro ...
¿Cómo calcular el mejor número de Particiones para la fusión?
Entonces, entiendo que en general uno debería usarcoalesce() cuando: el número de particiones disminuye debido a unfilter o alguna otra operación que pueda resultar en la reducción del conjunto de datos original (RDD, DF).coalesce() es útil para ...
Comprender los parámetros de tipo en Scala
Estoy tratando de entender los parámetros de tipo en Scala. Veamos el siguiente ejemplo general: def func1[T](a : T) : T = aEntiendo que func1 toma 1 parámetro de cualquier tipo y devuelve ese parámetro del mismo tipo. Lo que no entiendo es por ...
¿Por qué las funciones scala están limitadas a 22 parámetros?
No es que realmente haya llegado a ese límite, pero siempre me he preguntado: ¿por qué se detienen enFunction22/Tuple22. Restricción JVM? Elección arbitraria?
Spark ML VectorAssembler devuelve resultados extraños
Estoy experimentando un comportamiento muy extraño deVectorAssembler y me preguntaba si alguien más ha visto esto. Mi escenario es bastante sencillo. Analizo datos de unCSV archivo donde tengo algún estándarInt yDouble campos y también calculo ...