Resultados de la búsqueda a petición "apache-spark-sql"
Convertir fecha de nacimiento en edad en Spark Dataframe API
Esto parece simple pero no pude encontrar la respuesta. Estoy tratando de convertir una columna de fecha de nacimiento en el siguiente formato de fecha al formato de fecha en Spark Dataframe API y luego calcular las edades correspondientes. ...
PySpark: tome el promedio de una columna después de usar la función de filtro
Estoy usando el siguiente código para obtener la edad promedio de las personas cuyo salario es mayor que algún umbral. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})la edad de la columna es numérica (flotante) pero todavía recibo ...
¿Cómo implementar Like-condition en SparkSQL?
¿Cómo escribo una declaración SQL para alcanzar el objetivo como la siguiente declaración: SELECT * FROM table t WHERE t.a LIKE '%'||t.b||'%';Gracias.
¿Cuál es la mejor manera de definir métodos personalizados en un DataFrame?
Necesito definir métodos personalizados en DataFrame. ¿Cuál es la mejor manera de hacerlo? La solución debe ser escalable, ya que tengo la intención de definir un número significativo de métodos personalizados. Mi enfoque actual es crear una ...
¿Funciona el pushdown de predicado de chispa con JDBC?
De acuerdo aesta [https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html] Catalyst aplica optimizaciones lógicas como el pushdown de predicados. El optimizador puede insertar predicados de filtro ...
SparkSQL - ¿Función de retraso?
Veo en estoPublicación de DataBricks [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , hay soporte para funciones de ventana en SparkSql, en particular estoy tratando de usar la función de ventana lag ...
Problema de memoria con transmisión estructurada por chispa
Estoy enfrentando problemas de memoria al ejecutar una secuencia estructurada con agregación y particionamiento en Spark 2.2.0: session .readStream() .schema(inputSchema) .option(OPTION_KEY_DELIMITER, OPTION_VALUE_DELIMITER_TAB) ...
Guardar / exportar DataFrame transformado de nuevo a JDBC / MySQL
Estoy tratando de descubrir cómo usar el nuevoDataFrameWriter para volver a escribir datos en una base de datos JDBC. Parece que no puedo encontrar ninguna documentación para esto, aunque mirando el código fuente parece que debería ...
¿Cómo usar la consulta SQL para definir la tabla en dbtable?
EnJDBC a otras bases de datos [http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases] Encontré la siguiente explicación dedbtable parámetro: La tabla JDBC que debe leerse. Tenga en cuenta que se puede usar ...
Cómo filtrar un marco de datos de chispa contra otro marco de datos
Estoy tratando de filtrar un marco de datos contra otro: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id")Ahora quiero ...