Resultados de la búsqueda a petición "apache-spark-sql"

2 la respuesta

pyspark aprox Función cuántica

Tengo un marco de datos con estas columnasid, price, timestamp. Me gustaría encontrar el valor medio agrupado porid. Estoy usando este código para encontrarlo, pero me está dando este error. from pyspark.sql import DataFrameStatFunctions as ...

2 la respuesta

restar dos columnas con nulo en el marco de datos de chispa

Soy nuevo en spark, tengo dataframe df: +----------+------------+-----------+ | Column1 | Column2 | Sub | +----------+------------+-----------+ | 1 | 2 | 1 | +----------+------------+-----------+ | 4 | null | null ...

1 la respuesta

PySpark 2.1: Importar módulo con UDF rompe la conectividad de Hive

Actualmente estoy trabajando con Spark 2.1 y tengo un script principal que llama a un módulo auxiliar que contiene todos mis métodos de transformación. En otras palabras: main.py helper.pyEn la parte superior de mihelper.py archivo Tengo varias ...

2 la respuesta

¿Por qué no es posible unirse después de mostrar operador?

El siguiente código funciona bien hasta que agregueshow despuésagg. Por que esshow ¿imposible? val tempTableB = tableB.groupBy("idB") .agg(first("numB").as("numB")) //when I add a .show here, it doesn't work tableA.join(tempTableB, $"idA" === ...

2 la respuesta

eliminar columnas NULL en Spark SQL

¿Cómo eliminar columnas que contienen solo valores nulos de una tabla? Supongamos que tengo una mesa. SnapshotDate CreationDate Country Region CloseDate Probability BookingAmount RevenueAmount SnapshotDate1 CreationDate1 CloseDate1 null null ...

2 la respuesta

ERROR yarn.ApplicationMaster: Excepción no detectada: java.util.concurrent.TimeoutException: El tiempo de espera expiró después de 100000 milisegundos [duplicado]

Esta pregunta ya tiene una respuesta aquí: ¿Por qué falla la unión con "java.util.concurrent.TimeoutException: Futures expiró después de [300 ...

1 la respuesta

Apache Spark resta días de la columna de marca de tiempo

Estoy usando Spark Dataset y tengo problemas para restar días de una columna de marca de tiempo. Me gustaría restar días de la columna de marca de tiempo y obtener una nueva columna con formato de fecha y hora completo. Ejemplo: 2017-09-22 ...

2 la respuesta

Aplicar condición de filtro en el marco de datos creado a partir de JSON

Estoy trabajando en el marco de datos creado por JSON y luego quiero aplicar la condición de filtro sobre el marco de datos. val jsonStr = """{ "metadata": [{ "key": 84896, "value": 54 },{ "key": 1234, "value": 12 }]}""" val rdd = ...

4 la respuesta

Cómo hacer buenos ejemplos reproducibles de Apache Spark

He pasado bastante tiempo leyendo algunas preguntas con elpyspark [/questions/tagged/pyspark]ymarco de datos de chispa [/questions/tagged/spark-dataframe]etiquetas y muy a menudo encuentro que los carteles no proporcionan suficiente información ...

3 la respuesta

¿Cómo agregar múltiples columnas usando UDF?

Pregunta Quiero agregar los valores de retorno de un UDF a un marco de datos existente en columnas separadas. ¿Cómo logro esto de una manera ingeniosa? Aquí hay un ejemplo de lo que tengo hasta ahora. from pyspark.sql.functions import udf from ...