Resultados de la búsqueda a petición "apache-spark-sql"

4 la respuesta

Convertir fecha de nacimiento en edad en Spark Dataframe API

Esto parece simple pero no pude encontrar la respuesta. Estoy tratando de convertir una columna de fecha de nacimiento en el siguiente formato de fecha al formato de fecha en Spark Dataframe API y luego calcular las edades correspondientes. ...

1 la respuesta

PySpark: tome el promedio de una columna después de usar la función de filtro

Estoy usando el siguiente código para obtener la edad promedio de las personas cuyo salario es mayor que algún umbral. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})la edad de la columna es numérica (flotante) pero todavía recibo ...

1 la respuesta

¿Cómo implementar Like-condition en SparkSQL?

¿Cómo escribo una declaración SQL para alcanzar el objetivo como la siguiente declaración: SELECT * FROM table t WHERE t.a LIKE '%'||t.b||'%';Gracias.

3 la respuesta

¿Cuál es la mejor manera de definir métodos personalizados en un DataFrame?

Necesito definir métodos personalizados en DataFrame. ¿Cuál es la mejor manera de hacerlo? La solución debe ser escalable, ya que tengo la intención de definir un número significativo de métodos personalizados. Mi enfoque actual es crear una ...

1 la respuesta

¿Funciona el pushdown de predicado de chispa con JDBC?

De acuerdo aesta [https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html] Catalyst aplica optimizaciones lógicas como el pushdown de predicados. El optimizador puede insertar predicados de filtro ...

1 la respuesta

SparkSQL - ¿Función de retraso?

Veo en estoPublicación de DataBricks [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , hay soporte para funciones de ventana en SparkSql, en particular estoy tratando de usar la función de ventana lag ...

2 la respuesta

Problema de memoria con transmisión estructurada por chispa

Estoy enfrentando problemas de memoria al ejecutar una secuencia estructurada con agregación y particionamiento en Spark 2.2.0: session .readStream() .schema(inputSchema) .option(OPTION_KEY_DELIMITER, OPTION_VALUE_DELIMITER_TAB) ...

1 la respuesta

Guardar / exportar DataFrame transformado de nuevo a JDBC / MySQL

Estoy tratando de descubrir cómo usar el nuevoDataFrameWriter para volver a escribir datos en una base de datos JDBC. Parece que no puedo encontrar ninguna documentación para esto, aunque mirando el código fuente parece que debería ...

2 la respuesta

¿Cómo usar la consulta SQL para definir la tabla en dbtable?

EnJDBC a otras bases de datos [http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases] Encontré la siguiente explicación dedbtable parámetro: La tabla JDBC que debe leerse. Tenga en cuenta que se puede usar ...

1 la respuesta

Cómo filtrar un marco de datos de chispa contra otro marco de datos

Estoy tratando de filtrar un marco de datos contra otro: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id")Ahora quiero ...