Resultados da pesquisa a pedido "apache-spark-sql"

2 a resposta

Achatamento de linhas no Spark

Estou fazendo alguns testes para faísca usando scala. Geralmente lemos arquivos json que precisam ser manipulados como no exemplo a seguir: test.json: {"a":1,"b":[2,3]} val test = sqlContext.read.json("test.json")Como posso convertê-lo para o ...

1 a resposta

Por que usar uma UDF em uma consulta SQL leva a produtos cartesianos?

eu viDatabricks-Question [https://forums.databricks.com/questions/1907/performance-degradation-when-using-a-custom-udfs-i.html] e não entendo Por que usar UDFs leva a um produto cartesiano em vez de uma junção externa completa? Obviamente, o ...

1 a resposta

Codifique e monte vários recursos no PySpark

Eu tenho uma classe Python que estou usando para carregar e processar alguns dados no Spark. Entre várias coisas que preciso fazer, estou gerando uma lista de variáveis fictícias derivadas de várias colunas em um dataframe do Spark. Meu problema ...

2 a resposta

Como expressar uma coluna cujo nome contém espaços no Spark SQL

Tentamos agrupar o nome da coluna entre colchetes[column name], aspas simples e duplas e reticulares, nenhuma delas funciona. O Spark SQL suporta colunas cujo nome contém espaços? Obrigado!

2 a resposta

Adicione uma coluna vazia ao Spark DataFrame

Como mencionado emmuitos [https://stackoverflow.com/questions/29483498/append-a-column-to-data-frame-in-apache-spark-1-3] outros locais [http://apache-spark-user-list.1001560.n3.nabble.com/Append-column-to-Data-Frame-or-RDD-td22385.html] na ...

3 a resposta

Spark extraindo valores de uma linha

Eu tenho o seguinte quadro de dados val transactions_with_counts = sqlContext.sql( """SELECT user_id AS user_id, category_id AS category_id, COUNT(category_id) FROM transactions GROUP BY user_id, category_id""")Estou tentando converter as linhas ...

1 a resposta

Como podemos unir dois quadros de dados Spark SQL usando um critério "LIKE" no estilo SQL?

Estamos usando as bibliotecas PySpark em interface com o Spark 1.3.1. Temos dois quadros de dados,documents_df := {document_id, document_text} ekeywords_df := {keyword}. Gostaríamos de unir os dois quadros de dados e retornar um quadro de dados ...

3 a resposta

Como salvar um Spark DataFrame como CSV no disco?

Por exemplo, o resultado disso: df.filter("project = 'en'").select("title","count").groupBy("title").sum() retornaria uma matriz. Como salvar um Spark DataFrame como um arquivo CSV no disco?

1 a resposta

Convertendo várias colunas diferentes na coluna Mapear com o Spark Dataframe scala

Eu tenho um quadro de dados com coluna:user, address1, address2, address3, phone1, phone2 e assim por diante. Quero converter esse quadro de dados em -user, address, phone where address = Map("address1" -> address1.value, "address2" -> ...

2 a resposta

Explodir (transpor?) Várias colunas na tabela Spark SQL

Estou usando o Spark SQL (mencionei que ele está no Spark no caso de afetar a sintaxe do SQL - ainda não estou familiarizado o suficiente para ter certeza) e tenho uma tabela que estou tentando reestruturar, mas estou ficar preso ...