Resultados de la búsqueda a petición "spark-dataframe"

2 la respuesta

Cambie la marca de tiempo al formato UTC en Pyspark

Tengo un marco de datos de entrada (ip_df), los datos en este marco de datos son los siguientes: id timestamp_value 1 2017-08-01T14:30:00+05:30 2 2017-08-01T14:30:00+06:30 3 2017-08-01T14:30:00+07:30Necesito crear un nuevo marco de datos ...

2 la respuesta

No se puede resolver la columna (nombre de columna numérico) en Spark Dataframe

Esta es mi información: scala> data.printSchema root |-- 1.0: string (nullable = true) |-- 2.0: string (nullable = true) |-- 3.0: string (nullable = true)Esto no funciona :( scala> ...

2 la respuesta

Pyspark: matriz de conversión con estructura anidada a cadena

Tengo el marco de datos pyspark con una columna llamadaFiltros: "matriz>" Quiero guardar mi marco de datos en un archivo csv, para eso necesito convertir la matriz al tipo de cadena. Traté de lanzarlo:DF.Filters.tostring() ...

2 la respuesta

Intersección de matriz en Spark SQL

Tengo una tabla con una columna de tipo de matriz llamadawriter que tiene los valores comoarray[value1, value2], array[value2, value3].... etc. estoy haciendoself join para obtener resultados que tengan valores comunes entre matrices. Lo ...

2 la respuesta

PySpark: obtenga el número de fila para cada fila de un grupo

Con pyspark, me gustaría poder agrupar un marco de datos de chispa, ordenar el grupo y luego proporcionar un número de fila. Entonces Group Date A 2000 A 2002 A 2007 B 1999 B 2015Se convertiría Group Date row_num A 2000 0 A 2002 1 A 2007 2 B ...

4 la respuesta

¿Cómo convertir RDD [GenericRecord] a dataframe en scala?

Recibo tweets del tema kafka con Avro (serializador y deserializador). Luego creo un consumidor de chispas que extrae tweets en Dstream de RDD [GenericRecord]. Ahora quiero convertir cada rdd en un marco de datos para analizar estos tweets a ...

2 la respuesta

Asignación de json a la clase de caso con Spark (espacios en el nombre del campo)

Estoy tratando de leer un archivo json con la chispaDataset API, el problema es que este json contiene espacios en algunos de los nombres de campo. Esta sería una fila json {"Field Name" : "value"}Mi clase de caso debe ser así case class ...

1 la respuesta

Spark Dataframe: generar una matriz de tuplas a partir de un tipo de mapa

Mi fuente aguas abajo no admite un tipo de Mapa y mi fuente sí y, como tal, lo envía. Necesito convertir este mapa en una matriz de estructura (tupla). Scala admite Map.toArray, que crea una matriz de tuplas para usted, que parece ser la función ...

3 la respuesta

¿Cómo funciona createOrReplaceTempView en Spark?

Soy nuevo en Spark y Spark SQL. CómocreateOrReplaceTempView trabaja en Spark? Si registramos unRDD de objetos como una tabla provocará mantener todos los datos en la memoria?

5 la respuesta

Cómo resolver el AnalysisException: atributo (s) resuelto (s) en Spark

val rdd = sc.parallelize(Seq(("vskp", Array(2.0, 1.0, 2.1, 5.4)),("hyd",Array(1.5, 0.5, 0.9, 3.7)),("hyd", Array(1.5, 0.5, 0.9, 3.2)),("tvm", Array(8.0, 2.9, 9.1, 2.5)))) val df1= rdd.toDF("id", "vals") val rdd1 = ...