Resultados de la búsqueda a petición "spark-dataframe"
Cambie la marca de tiempo al formato UTC en Pyspark
Tengo un marco de datos de entrada (ip_df), los datos en este marco de datos son los siguientes: id timestamp_value 1 2017-08-01T14:30:00+05:30 2 2017-08-01T14:30:00+06:30 3 2017-08-01T14:30:00+07:30Necesito crear un nuevo marco de datos ...
No se puede resolver la columna (nombre de columna numérico) en Spark Dataframe
Esta es mi información: scala> data.printSchema root |-- 1.0: string (nullable = true) |-- 2.0: string (nullable = true) |-- 3.0: string (nullable = true)Esto no funciona :( scala> ...
Pyspark: matriz de conversión con estructura anidada a cadena
Tengo el marco de datos pyspark con una columna llamadaFiltros: "matriz>" Quiero guardar mi marco de datos en un archivo csv, para eso necesito convertir la matriz al tipo de cadena. Traté de lanzarlo:DF.Filters.tostring() ...
Intersección de matriz en Spark SQL
Tengo una tabla con una columna de tipo de matriz llamadawriter que tiene los valores comoarray[value1, value2], array[value2, value3].... etc. estoy haciendoself join para obtener resultados que tengan valores comunes entre matrices. Lo ...
PySpark: obtenga el número de fila para cada fila de un grupo
Con pyspark, me gustaría poder agrupar un marco de datos de chispa, ordenar el grupo y luego proporcionar un número de fila. Entonces Group Date A 2000 A 2002 A 2007 B 1999 B 2015Se convertiría Group Date row_num A 2000 0 A 2002 1 A 2007 2 B ...
¿Cómo convertir RDD [GenericRecord] a dataframe en scala?
Recibo tweets del tema kafka con Avro (serializador y deserializador). Luego creo un consumidor de chispas que extrae tweets en Dstream de RDD [GenericRecord]. Ahora quiero convertir cada rdd en un marco de datos para analizar estos tweets a ...
Asignación de json a la clase de caso con Spark (espacios en el nombre del campo)
Estoy tratando de leer un archivo json con la chispaDataset API, el problema es que este json contiene espacios en algunos de los nombres de campo. Esta sería una fila json {"Field Name" : "value"}Mi clase de caso debe ser así case class ...
Spark Dataframe: generar una matriz de tuplas a partir de un tipo de mapa
Mi fuente aguas abajo no admite un tipo de Mapa y mi fuente sí y, como tal, lo envía. Necesito convertir este mapa en una matriz de estructura (tupla). Scala admite Map.toArray, que crea una matriz de tuplas para usted, que parece ser la función ...
¿Cómo funciona createOrReplaceTempView en Spark?
Soy nuevo en Spark y Spark SQL. CómocreateOrReplaceTempView trabaja en Spark? Si registramos unRDD de objetos como una tabla provocará mantener todos los datos en la memoria?
Cómo resolver el AnalysisException: atributo (s) resuelto (s) en Spark
val rdd = sc.parallelize(Seq(("vskp", Array(2.0, 1.0, 2.1, 5.4)),("hyd",Array(1.5, 0.5, 0.9, 3.7)),("hyd", Array(1.5, 0.5, 0.9, 3.2)),("tvm", Array(8.0, 2.9, 9.1, 2.5)))) val df1= rdd.toDF("id", "vals") val rdd1 = ...