Resultados de la búsqueda a petición "apache-spark-sql"
Cómo comprimir dos (o más) DataFrame en Spark
tengo dosDataFrame a yb. a es como Column 1 | Column 2 abc | 123 cde | 23b es como Column 1 1 2Quiero zipa yb (o incluso más) DataFrames que se convierte en algo así como: Column 1 | Column 2 | Column 3 abc | 123 | 1 cde | 23 | 2¿Cómo puedo ...
¿Por qué usar un UDF en una consulta SQL conduce a un producto cartesiano?
Yo viDatabricks-Question [https://forums.databricks.com/questions/1907/performance-degradation-when-using-a-custom-udfs-i.html] y no entiendo ¿Por qué el uso de UDF conduce a un producto cartesiano en lugar de una unión externa completa? ...
en Amazon EMR 4.0.0, configurar /etc/spark/conf/spark-env.conf no es efectivo
Estoy lanzando mi hiveserver2 basado en chispas en Amazon EMR, que tiene una dependencia de classpath adicional. Debido a este error en Amazon ...
Codificar y ensamblar múltiples funciones en PySpark
Tengo una clase de Python que estoy usando para cargar y procesar algunos datos en Spark. Entre varias cosas que debo hacer, estoy generando una lista de variables ficticias derivadas de varias columnas en un marco de datos de Spark. Mi problema ...
Spark extrayendo valores de una fila
Tengo el siguiente marco de datos val transactions_with_counts = sqlContext.sql( """SELECT user_id AS user_id, category_id AS category_id, COUNT(category_id) FROM transactions GROUP BY user_id, category_id""")Estoy tratando de convertir las ...
Cómo expresar una columna cuyo nombre contiene espacios en Spark SQL
Hemos intentado ajustar el nombre de la columna entre paréntesis[column name], comillas simples y dobles, y backticks, ninguno de ellos funciona. ¿Spark SQL admite columnas cuyo nombre contiene espacios? ¡Gracias!
Agregue una columna vacía a Spark DataFrame
Como se menciona enmuchos [https://stackoverflow.com/questions/29483498/append-a-column-to-data-frame-in-apache-spark-1-3] otros lugares [http://apache-spark-user-list.1001560.n3.nabble.com/Append-column-to-Data-Frame-or-RDD-td22385.html] en la ...
¿Cómo podemos unir dos marcos de datos SQL Spark usando un criterio "LIKE" de SQL-esque?
Estamos utilizando las bibliotecas PySpark que interactúan con Spark 1.3.1. Tenemos dos marcos de datos,documents_df := {document_id, document_text} ykeywords_df := {keyword}. Nos gustaría unirnos a los dos marcos de datos y devolver un marco de ...
¿Cómo guardar un DataFrame de chispa como csv en el disco?
Por ejemplo, el resultado de esto: df.filter("project = 'en'").select("title","count").groupBy("title").sum() devolvería una matriz. ¿Cómo guardar un DataFrame de chispa como un archivo csv en el disco?
Conversión de varias columnas diferentes a la columna Mapa con la escala de Spark Dataframe
Tengo un marco de datos con columna:user, address1, address2, address3, phone1, phone2 y así. Quiero convertir este marco de datos a -user, address, phone where address = Map("address1" -> address1.value, "address2" -> address2.value, "address3" ...