Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

Cómo agregar una columna anidada a un DataFrame

Tengo un marco de datosdf con el siguiente esquema: root |-- city_name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true)Lo que quiero hacer es agregar una ...

1 la respuesta

Los nombres de las columnas del marco de datos entran en conflicto con. (Punto)

Tengo un DataFramedf que tiene este esquema: root |-- person.name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true) Cuando lo hagodf.select("person.name") ...

1 la respuesta

¿Cómo usar UDF para devolver múltiples columnas?

¿Es posible crear un UDF que devuelva el conjunto de columnas? Es decir. teniendo un marco de datos de la siguiente manera: | Feature1 | Feature2 | Feature 3 | | 1.3 | 3.4 | 4.5 |Ahora me gustaría extraer una nueva característica, que puede ...

2 la respuesta

Aplicar condición de filtro en el marco de datos creado a partir de JSON

Estoy trabajando en el marco de datos creado por JSON y luego quiero aplicar la condición de filtro sobre el marco de datos. val jsonStr = """{ "metadata": [{ "key": 84896, "value": 54 },{ "key": 1234, "value": 12 }]}""" val rdd = ...

1 la respuesta

Columna GroupBy y filas de filtro con valor máximo en Pyspark

Estoy casi seguro de que esto se ha preguntado antes, perouna búsqueda a través de ...

2 la respuesta

Spark Strutured Streaming convierte automáticamente la marca de tiempo a la hora local

Tengo mi marca de tiempo en UTC e ISO8601, pero usando Structured Streaming, se convierte automáticamente a la hora local. ¿Hay alguna manera de detener esta conversión? Me gustaría tenerlo en UTC. Estoy leyendo datos json de Kafka y luego los ...

1 la respuesta

Agregar parte de la columna del esquema principal al elemento secundario en JSON anidado en el marco de datos de chispa

Tengo debajo de xml que estoy tratando de cargar en el marco de datos de chispa. <?xml version="1.0"?> <env:ContentEnvelope xsi:schemaLocation="http"> <env:Header> ...

1 la respuesta

Error intermitente de Hiveop / Hadoop: no se puede mover el origen al destino

Ha habido algunos artículos SO sobreHive/Hadoop Error "No se puede mover la fuente". Muchos de ellos apuntan a un problema de permiso. Sin embargo, en mi sitio vi el mismo error pero estoy bastante seguro de que no está relacionado con un ...

1 la respuesta

Contar el número de filas duplicadas en SPARKSQL

Tengo un requisito donde necesito contar el número de filas duplicadas en SparkSQL para las tablas de Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import ...

1 la respuesta

Aplicar una transformación a múltiples columnas pyspark dataframe

Supongamos que tengo el siguiente marco de datos de chispa: +-----+-------+ | word| label| +-----+-------+ | red| color| | red| color| | blue| color| | blue|feeling| |happy|feeling| +-----+-------+Que se puede crear usando el siguiente ...