Resultados de la búsqueda a petición "apache-spark-sql"

4 la respuesta

Cómo comprimir dos (o más) DataFrame en Spark

tengo dosDataFrame a yb. a es como Column 1 | Column 2 abc | 123 cde | 23b es como Column 1 1 2Quiero zipa yb (o incluso más) DataFrames que se convierte en algo así como: Column 1 | Column 2 | Column 3 abc | 123 | 1 cde | 23 | 2¿Cómo puedo ...

1 la respuesta

¿Por qué usar un UDF en una consulta SQL conduce a un producto cartesiano?

Yo viDatabricks-Question [https://forums.databricks.com/questions/1907/performance-degradation-when-using-a-custom-udfs-i.html] y no entiendo ¿Por qué el uso de UDF conduce a un producto cartesiano en lugar de una unión externa completa? ...

2 la respuesta

en Amazon EMR 4.0.0, configurar /etc/spark/conf/spark-env.conf no es efectivo

Estoy lanzando mi hiveserver2 basado en chispas en Amazon EMR, que tiene una dependencia de classpath adicional. Debido a este error en Amazon ...

1 la respuesta

Codificar y ensamblar múltiples funciones en PySpark

Tengo una clase de Python que estoy usando para cargar y procesar algunos datos en Spark. Entre varias cosas que debo hacer, estoy generando una lista de variables ficticias derivadas de varias columnas en un marco de datos de Spark. Mi problema ...

3 la respuesta

Spark extrayendo valores de una fila

Tengo el siguiente marco de datos val transactions_with_counts = sqlContext.sql( """SELECT user_id AS user_id, category_id AS category_id, COUNT(category_id) FROM transactions GROUP BY user_id, category_id""")Estoy tratando de convertir las ...

2 la respuesta

Cómo expresar una columna cuyo nombre contiene espacios en Spark SQL

Hemos intentado ajustar el nombre de la columna entre paréntesis[column name], comillas simples y dobles, y backticks, ninguno de ellos funciona. ¿Spark SQL admite columnas cuyo nombre contiene espacios? ¡Gracias!

2 la respuesta

Agregue una columna vacía a Spark DataFrame

Como se menciona enmuchos [https://stackoverflow.com/questions/29483498/append-a-column-to-data-frame-in-apache-spark-1-3] otros lugares [http://apache-spark-user-list.1001560.n3.nabble.com/Append-column-to-Data-Frame-or-RDD-td22385.html] en la ...

1 la respuesta

¿Cómo podemos unir dos marcos de datos SQL Spark usando un criterio "LIKE" de SQL-esque?

Estamos utilizando las bibliotecas PySpark que interactúan con Spark 1.3.1. Tenemos dos marcos de datos,documents_df := {document_id, document_text} ykeywords_df := {keyword}. Nos gustaría unirnos a los dos marcos de datos y devolver un marco de ...

3 la respuesta

¿Cómo guardar un DataFrame de chispa como csv en el disco?

Por ejemplo, el resultado de esto: df.filter("project = 'en'").select("title","count").groupBy("title").sum() devolvería una matriz. ¿Cómo guardar un DataFrame de chispa como un archivo csv en el disco?

1 la respuesta

Conversión de varias columnas diferentes a la columna Mapa con la escala de Spark Dataframe

Tengo un marco de datos con columna:user, address1, address2, address3, phone1, phone2 y así. Quiero convertir este marco de datos a -user, address, phone where address = Map("address1" -> address1.value, "address2" -> address2.value, "address3" ...