Resultados de la búsqueda a petición "apache-spark-sql"

2 la respuesta

En pyspark, ¿cómo agrega / concat una cadena a una columna?

Me gustaría agregar una cadena a una columna existente. Por ejemplo,df['col1'] tiene valores como'1', '2', '3' etc. y me gustaría concat string'000' a la izquierda decol1 para que pueda obtener una columna (nueva o reemplazar la anterior no ...

5 la respuesta

Igualdad de DataFrame en Apache Spark

Asumirdf1 ydf2 son dosDataFrames en Apache Spark, calculado utilizando dos mecanismos diferentes, por ejemplo, Spark SQL frente a la API Scala / Java / Python. ¿Hay alguna forma idiomática de determinar si los dos marcos de datos ...

7 la respuesta

Spark especifica múltiples condiciones de columna para la unión de marco de datos

Cómo dar más condiciones de columna al unir dos marcos de datos. Por ejemplo, quiero ejecutar lo siguiente: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ...

1 la respuesta

¿Cómo registro una función en sqlContext UDF en scala?

Tengo un método llamado getAge (timestamp: Long) y quiero registrar esto como una función sql. yo tengo sqlContext.udf.register("getAge",getAge)Pero me dice que necesito argumentos o uso _ luego, intenté usar _ pero me da un error. ¿Cómo lo ...

5 la respuesta

Guarde el marco de datos de Spark como una tabla particionada dinámica en Hive

Tengo una aplicación de muestra que trabaja para leer archivos csv en un marco de datos. El marco de datos se puede almacenar en una tabla Hive en formato de parquet utilizando el métododf.saveAsTable(tablename,mode). El código anterior funciona ...

1 la respuesta

¿Cómo puedo filtrar filas en función de si el valor de una columna está en un conjunto de cadenas en un Spark DataFrame?

¿Existe una forma más elegante de filtrado basada en valores en un conjunto de cadenas? def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = { val containsAction = udf((action: String) => { actions.contains(action) ...

4 la respuesta

¿Cómo puedo encontrar el tamaño de un RDD?

yo tengoRDD[Row], que debe persistir en un repositorio de terceros. Pero este repositorio de terceros acepta un máximo de 5 MB en una sola llamada. Por lo tanto, quiero crear una partición basada en el tamaño de los datos presentes en RDD y no ...

3 la respuesta

¿Qué es eficiente, Dataframe o RDD o hiveql?

Soy novato en Apache Spark. Mi trabajo es leer dos archivos CSV, seleccionar algunas columnas específicas de él, fusionarlo, agregarlo y escribir el resultado en un solo archivo CSV. Por ejemplo, CSV1name,age,deparment_id ...

5 la respuesta

¿Cómo exportar un marco de datos de tabla en PySpark a csv?

Estoy usando Spark 1.3.1 (PySpark) y he generado una tabla usando una consulta SQL. Ahora tengo un objeto que es unDataFrame. Quiero exportar estoDataFrame objeto (lo he llamado "tabla") a un archivo csv para poder manipularlo y trazar las ...

4 la respuesta

¿Cómo convertir DataFrame a Json?

Tengo un gran archivo Json, una pequeña parte de la siguiente manera: { "socialNews": [{ "adminTagIds": "", "fileIds": "", "departmentTagIds": "", ........ ........ "comments": [{ "commentId": "", "newsId": "", "entityId": "", .... .... }] }] ...