Resultados de la búsqueda a petición "apache-spark-sql"

Me gustaría agregar una cadena a una columna existente. Por ejemplo,df['col1'] tiene valores como'1', '2', '3' etc. y me gustaría concat string'000' a la izquierda decol1 para que pueda obtener una columna (nueva o reemplazar la anterior no ...

dataframe apache-spark rdd scala

5 la respuesta

Igualdad de DataFrame en Apache Spark

Asumirdf1 ydf2 son dosDataFrames en Apache Spark, calculado utilizando dos mecanismos diferentes, por ejemplo, Spark SQL frente a la API Scala / Java / Python. ¿Hay alguna forma idiomática de determinar si los dos marcos de datos ...

rdd apache-spark

7 la respuesta

Spark especifica múltiples condiciones de columna para la unión de marco de datos

Cómo dar más condiciones de columna al unir dos marcos de datos. Por ejemplo, quiero ejecutar lo siguiente: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ...

Etiquetas Populares

android-ndk-r5 deprecated ef-code-first isolation-level signed awtrobot latex erlang jce vsync currency grails lambda which symbol-server linked-list extjs converter pdfkit uibezierpath

apache-spark scala

1 la respuesta

¿Cómo registro una función en sqlContext UDF en scala?

Tengo un método llamado getAge (timestamp: Long) y quiero registrar esto como una función sql. yo tengo sqlContext.udf.register("getAge",getAge)Pero me dice que necesito argumentos o uso _ luego, intenté usar _ pero me da un error. ¿Cómo lo ...

hadoop apache-spark hive spark-dataframe

5 la respuesta

Guarde el marco de datos de Spark como una tabla particionada dinámica en Hive

Tengo una aplicación de muestra que trabaja para leer archivos csv en un marco de datos. El marco de datos se puede almacenar en una tabla Hive en formato de parquet utilizando el métododf.saveAsTable(tablename,mode). El código anterior funciona ...

scala apache-spark

1 la respuesta

¿Cómo puedo filtrar filas en función de si el valor de una columna está en un conjunto de cadenas en un Spark DataFrame?

¿Existe una forma más elegante de filtrado basada en valores en un conjunto de cadenas? def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = { val containsAction = udf((action: String) => { actions.contains(action) ...

apache-spark

4 la respuesta

¿Cómo puedo encontrar el tamaño de un RDD?

yo tengoRDD[Row], que debe persistir en un repositorio de terceros. Pero este repositorio de terceros acepta un máximo de 5 MB en una sola llamada. Por lo tanto, quiero crear una partición basada en el tamaño de los datos presentes en RDD y no ...

apache-spark spark-dataframe

3 la respuesta

¿Qué es eficiente, Dataframe o RDD o hiveql?

Soy novato en Apache Spark. Mi trabajo es leer dos archivos CSV, seleccionar algunas columnas específicas de él, fusionarlo, agregarlo y escribir el resultado en un solo archivo CSV. Por ejemplo, CSV1name,age,deparment_id ...

python dataframe apache-spark export-to-csv

5 la respuesta

¿Cómo exportar un marco de datos de tabla en PySpark a csv?

Estoy usando Spark 1.3.1 (PySpark) y he generado una tabla usando una consulta SQL. Ahora tengo un objeto que es unDataFrame. Quiero exportar estoDataFrame objeto (lo he llamado "tabla") a un archivo csv para poder manipularlo y trazar las ...

apache-spark json scala

4 la respuesta

¿Cómo convertir DataFrame a Json?

Tengo un gran archivo Json, una pequeña parte de la siguiente manera: { "socialNews": [{ "adminTagIds": "", "fileIds": "", "departmentTagIds": "", ........ ........ "comments": [{ "commentId": "", "newsId": "", "entityId": "", .... .... }] }] ...

Página 33 de 52

31 323334 35

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark-sql"

Etiquetas Populares