Resultados de la búsqueda a petición "apache-spark-sql"
Cómo agregar una columna anidada a un DataFrame
Tengo un marco de datosdf con el siguiente esquema: root |-- city_name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true)Lo que quiero hacer es agregar una ...
Los nombres de las columnas del marco de datos entran en conflicto con. (Punto)
Tengo un DataFramedf que tiene este esquema: root |-- person.name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true) Cuando lo hagodf.select("person.name") ...
¿Cómo usar UDF para devolver múltiples columnas?
¿Es posible crear un UDF que devuelva el conjunto de columnas? Es decir. teniendo un marco de datos de la siguiente manera: | Feature1 | Feature2 | Feature 3 | | 1.3 | 3.4 | 4.5 |Ahora me gustaría extraer una nueva característica, que puede ...
Aplicar condición de filtro en el marco de datos creado a partir de JSON
Estoy trabajando en el marco de datos creado por JSON y luego quiero aplicar la condición de filtro sobre el marco de datos. val jsonStr = """{ "metadata": [{ "key": 84896, "value": 54 },{ "key": 1234, "value": 12 }]}""" val rdd = ...
Columna GroupBy y filas de filtro con valor máximo en Pyspark
Estoy casi seguro de que esto se ha preguntado antes, perouna búsqueda a través de ...
Spark Strutured Streaming convierte automáticamente la marca de tiempo a la hora local
Tengo mi marca de tiempo en UTC e ISO8601, pero usando Structured Streaming, se convierte automáticamente a la hora local. ¿Hay alguna manera de detener esta conversión? Me gustaría tenerlo en UTC. Estoy leyendo datos json de Kafka y luego los ...
Agregar parte de la columna del esquema principal al elemento secundario en JSON anidado en el marco de datos de chispa
Tengo debajo de xml que estoy tratando de cargar en el marco de datos de chispa. <?xml version="1.0"?> <env:ContentEnvelope xsi:schemaLocation="http"> <env:Header> ...
Error intermitente de Hiveop / Hadoop: no se puede mover el origen al destino
Ha habido algunos artículos SO sobreHive/Hadoop Error "No se puede mover la fuente". Muchos de ellos apuntan a un problema de permiso. Sin embargo, en mi sitio vi el mismo error pero estoy bastante seguro de que no está relacionado con un ...
Contar el número de filas duplicadas en SPARKSQL
Tengo un requisito donde necesito contar el número de filas duplicadas en SparkSQL para las tablas de Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import ...
Aplicar una transformación a múltiples columnas pyspark dataframe
Supongamos que tengo el siguiente marco de datos de chispa: +-----+-------+ | word| label| +-----+-------+ | red| color| | red| color| | blue| color| | blue|feeling| |happy|feeling| +-----+-------+Que se puede crear usando el siguiente ...