Resultados de la búsqueda a petición "apache-spark-sql"
pyspark aprox Función cuántica
Tengo un marco de datos con estas columnasid, price, timestamp. Me gustaría encontrar el valor medio agrupado porid. Estoy usando este código para encontrarlo, pero me está dando este error. from pyspark.sql import DataFrameStatFunctions as ...
restar dos columnas con nulo en el marco de datos de chispa
Soy nuevo en spark, tengo dataframe df: +----------+------------+-----------+ | Column1 | Column2 | Sub | +----------+------------+-----------+ | 1 | 2 | 1 | +----------+------------+-----------+ | 4 | null | null ...
PySpark 2.1: Importar módulo con UDF rompe la conectividad de Hive
Actualmente estoy trabajando con Spark 2.1 y tengo un script principal que llama a un módulo auxiliar que contiene todos mis métodos de transformación. En otras palabras: main.py helper.pyEn la parte superior de mihelper.py archivo Tengo varias ...
¿Por qué no es posible unirse después de mostrar operador?
El siguiente código funciona bien hasta que agregueshow despuésagg. Por que esshow ¿imposible? val tempTableB = tableB.groupBy("idB") .agg(first("numB").as("numB")) //when I add a .show here, it doesn't work tableA.join(tempTableB, $"idA" === ...
eliminar columnas NULL en Spark SQL
¿Cómo eliminar columnas que contienen solo valores nulos de una tabla? Supongamos que tengo una mesa. SnapshotDate CreationDate Country Region CloseDate Probability BookingAmount RevenueAmount SnapshotDate1 CreationDate1 CloseDate1 null null ...
ERROR yarn.ApplicationMaster: Excepción no detectada: java.util.concurrent.TimeoutException: El tiempo de espera expiró después de 100000 milisegundos [duplicado]
Esta pregunta ya tiene una respuesta aquí: ¿Por qué falla la unión con "java.util.concurrent.TimeoutException: Futures expiró después de [300 ...
Apache Spark resta días de la columna de marca de tiempo
Estoy usando Spark Dataset y tengo problemas para restar días de una columna de marca de tiempo. Me gustaría restar días de la columna de marca de tiempo y obtener una nueva columna con formato de fecha y hora completo. Ejemplo: 2017-09-22 ...
Aplicar condición de filtro en el marco de datos creado a partir de JSON
Estoy trabajando en el marco de datos creado por JSON y luego quiero aplicar la condición de filtro sobre el marco de datos. val jsonStr = """{ "metadata": [{ "key": 84896, "value": 54 },{ "key": 1234, "value": 12 }]}""" val rdd = ...
Cómo hacer buenos ejemplos reproducibles de Apache Spark
He pasado bastante tiempo leyendo algunas preguntas con elpyspark [/questions/tagged/pyspark]ymarco de datos de chispa [/questions/tagged/spark-dataframe]etiquetas y muy a menudo encuentro que los carteles no proporcionan suficiente información ...
¿Cómo agregar múltiples columnas usando UDF?
Pregunta Quiero agregar los valores de retorno de un UDF a un marco de datos existente en columnas separadas. ¿Cómo logro esto de una manera ingeniosa? Aquí hay un ejemplo de lo que tengo hasta ahora. from pyspark.sql.functions import udf from ...