Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

¿Cuál es la diferencia entre SparkSession.sql y Dataset.sqlContext.sql?

Tengo los siguientes fragmentos de código y me pregunto cuál es la diferencia entre estos dos y cuál debo usar. Estoy usando la chispa 2.2. Dataset<Row> df = sparkSession.readStream() .format("kafka") ...

1 la respuesta

Spark 2.2 Scala DataFrame selecciona del conjunto de cadenas, detectando errores

Soy nuevo en SparkSQL / Scala y estoy luchando con un par de tareas aparentemente simples. Estoy tratando de construir un SQL dinámico a partir de una matriz de cadenas Scala. Estoy tratando de volver a escribir algunas columnas en mi ...

1 la respuesta

¿Cómo explotar una columna separada por espacios?

Tengo un marco de datos de muestra en Spark Scala que contiene una columna y muchas otras columnas 50+ y necesito explotar id: datos de ejemplo: id name address 234 435 567 auh aus 345 123 muji ukdatos resultantes: id name address 234 auh aus ...

2 la respuesta

Causado por: java.lang.NullPointerException en org.apache.spark.sql.Dataset

A continuación proporciono mi código. I iterar sobre el DataFrameprodRows y para cadaproduct_PK Encuentro una sublista coincidente de product_PKs deprodRows. numRecProducts = 10 var listOfProducts: Map[Long,Array[(Long, Int)]] = ...

2 la respuesta

¿Por qué el formato ("kafka") falla con "No se pudo encontrar la fuente de datos: kafka" (incluso con uber-jar)?

Yo uso HDP-2.6.3.0 con el paquete Spark2 2.2.0. Estoy tratando de escribir un consumidor de Kafka, usando la API de transmisión estructurada, pero obtengo el siguiente error después de enviar el trabajo al clúster: Exception in thread "main" ...

1 la respuesta

Aplicar una transformación a múltiples columnas pyspark dataframe

Supongamos que tengo el siguiente marco de datos de chispa: +-----+-------+ | word| label| +-----+-------+ | red| color| | red| color| | blue| color| | blue|feeling| |happy|feeling| +-----+-------+Que se puede crear usando el siguiente ...

1 la respuesta

Los nombres de las columnas del marco de datos entran en conflicto con. (Punto)

Tengo un DataFramedf que tiene este esquema: root |-- person.name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true) Cuando lo hagodf.select("person.name") ...

1 la respuesta

Columna GroupBy y filas de filtro con valor máximo en Pyspark

Estoy casi seguro de que esto se ha preguntado antes, perouna búsqueda a través de ...

1 la respuesta

¿Cómo usar UDF para devolver múltiples columnas?

¿Es posible crear un UDF que devuelva el conjunto de columnas? Es decir. teniendo un marco de datos de la siguiente manera: | Feature1 | Feature2 | Feature 3 | | 1.3 | 3.4 | 4.5 |Ahora me gustaría extraer una nueva característica, que puede ...

1 la respuesta

Agregar parte de la columna del esquema principal al elemento secundario en JSON anidado en el marco de datos de chispa

Tengo debajo de xml que estoy tratando de cargar en el marco de datos de chispa. <?xml version="1.0"?> <env:ContentEnvelope xsi:schemaLocation="http"> <env:Header> ...