Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

tablas de caché en apache spark sql

Del oficial de Sparkdocumento [http://spark.apache.org/docs/latest/sql-programming-guide.html#caching-data-in-memory] , dice: Spark SQL puede almacenar en caché las tablas usando un formato de columnas en memoria llamando a sqlContext.cacheTable ...

1 la respuesta

Use collect_list y collect_set en Spark SQL

De acuerdo con ladocs [http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions$] , elcollect_set ycollect_list Las funciones deben estar disponibles en Spark SQL. Sin embargo, no puedo hacer que funcione. Estoy ...

2 la respuesta

Cómo almacenar en caché un marco de datos de Spark y hacer referencia a él en otro script

¿Es posible almacenar en caché un marco de datos y luego hacer referencia (consultarlo) en otro script? ... Mi objetivo es el siguiente: En el script 1, cree un marco de datos (df)Ejecute el script 1 y la memoria caché dfEn el script 2, consulta ...

2 la respuesta

Cómo excluir varias columnas en el marco de datos de Spark en Python

Encontré que PySpark tiene un método llamadodrop pero parece que solo puede soltar una columna a la vez. ¿Alguna idea sobre cómo soltar varias columnas al mismo tiempo? df.drop(['col1','col2']) TypeError Traceback (most recent call ...

6 la respuesta

¿Cómo agrego una columna persistente de identificadores de fila a Spark DataFrame?

Esta pregunta no es nueva, sin embargo, encuentro un comportamiento sorprendente en Spark. Necesito agregar una columna de ID de fila a un DataFrame. Utilicé el método DataFrame monotonically_increasing_id () y me da una columna adicional de ID ...

4 la respuesta

SPARK SQL: actualice la tabla MySql utilizando DataFrames y JDBC

Estoy tratando de insertar y actualizar algunos datos en MySql usando Spark SQL DataFrames y conexión JDBC. He logrado insertar nuevos datos usando SaveMode.Append. ¿Hay alguna manera de actualizar los datos ya existentes en MySql Table desde ...

1 la respuesta

Filtro de chispa DataFrame en cadena contiene

estoy usandoSpark 1.3.0 [http://spark.apache.org/releases/spark-release-1-3-0.html]ySpark Avro 1.0.0 [https://github.com/databricks/spark-avro/tree/c5612df9b1a9768689fec91655faa2a7073fd9fc#spark-sql-avro-library] . Estoy trabajando desdeel ...

4 la respuesta

Múltiples condiciones para el filtro en marcos de datos de chispa

Tengo un marco de datos con cuatro campos. uno de los nombres de campo es Estado y estoy tratando de usar una condición OR en .filter para un marco de datos. Intenté debajo de las consultas pero no tuve suerte. df2 = df1.filter(("Status=2") || ...

2 la respuesta

Agregar columna a PySpark DataFrame dependiendo de si el valor de la columna está en otra columna

Tengo un PySpark DataFrame con estructura dada por [('u1', 1, [1 ,2, 3]), ('u1', 4, [1, 2, 3])].toDF('user', 'item', 'fav_items') Necesito agregar una columna más con 1 o 0 dependiendo de si 'item' está en 'fav_items' o no. Entonces yo ...

5 la respuesta

¿Cómo detecto si un Spark DataFrame tiene una columna?

Cuando creo unDataFrame desde un archivo JSON en Spark SQL, ¿cómo puedo saber si existe una columna determinada antes de llamar.select Ejemplo de esquema JSON: { "a": { "b": 1, "c": 2 } }Esto es lo que quiero hacer: potential_columns = ...