Resultados da pesquisa a pedido "apache-spark-sql"
Achatamento de linhas no Spark
Estou fazendo alguns testes para faísca usando scala. Geralmente lemos arquivos json que precisam ser manipulados como no exemplo a seguir: test.json: {"a":1,"b":[2,3]} val test = sqlContext.read.json("test.json")Como posso convertê-lo para o ...
Por que usar uma UDF em uma consulta SQL leva a produtos cartesianos?
eu viDatabricks-Question [https://forums.databricks.com/questions/1907/performance-degradation-when-using-a-custom-udfs-i.html] e não entendo Por que usar UDFs leva a um produto cartesiano em vez de uma junção externa completa? Obviamente, o ...
Codifique e monte vários recursos no PySpark
Eu tenho uma classe Python que estou usando para carregar e processar alguns dados no Spark. Entre várias coisas que preciso fazer, estou gerando uma lista de variáveis fictícias derivadas de várias colunas em um dataframe do Spark. Meu problema ...
Como expressar uma coluna cujo nome contém espaços no Spark SQL
Tentamos agrupar o nome da coluna entre colchetes[column name], aspas simples e duplas e reticulares, nenhuma delas funciona. O Spark SQL suporta colunas cujo nome contém espaços? Obrigado!
Adicione uma coluna vazia ao Spark DataFrame
Como mencionado emmuitos [https://stackoverflow.com/questions/29483498/append-a-column-to-data-frame-in-apache-spark-1-3] outros locais [http://apache-spark-user-list.1001560.n3.nabble.com/Append-column-to-Data-Frame-or-RDD-td22385.html] na ...
Spark extraindo valores de uma linha
Eu tenho o seguinte quadro de dados val transactions_with_counts = sqlContext.sql( """SELECT user_id AS user_id, category_id AS category_id, COUNT(category_id) FROM transactions GROUP BY user_id, category_id""")Estou tentando converter as linhas ...
Como podemos unir dois quadros de dados Spark SQL usando um critério "LIKE" no estilo SQL?
Estamos usando as bibliotecas PySpark em interface com o Spark 1.3.1. Temos dois quadros de dados,documents_df := {document_id, document_text} ekeywords_df := {keyword}. Gostaríamos de unir os dois quadros de dados e retornar um quadro de dados ...
Como salvar um Spark DataFrame como CSV no disco?
Por exemplo, o resultado disso: df.filter("project = 'en'").select("title","count").groupBy("title").sum() retornaria uma matriz. Como salvar um Spark DataFrame como um arquivo CSV no disco?
Convertendo várias colunas diferentes na coluna Mapear com o Spark Dataframe scala
Eu tenho um quadro de dados com coluna:user, address1, address2, address3, phone1, phone2 e assim por diante. Quero converter esse quadro de dados em -user, address, phone where address = Map("address1" -> address1.value, "address2" -> ...
Explodir (transpor?) Várias colunas na tabela Spark SQL
Estou usando o Spark SQL (mencionei que ele está no Spark no caso de afetar a sintaxe do SQL - ainda não estou familiarizado o suficiente para ter certeza) e tenho uma tabela que estou tentando reestruturar, mas estou ficar preso ...