Resultados da pesquisa a pedido "apache-spark-sql"
Como calcular o percentil da coluna em um DataFrame no spark?
Estou tentando calcular o percentil de uma coluna em um DataFrame? Não consigo encontrar nenhuma função percentil_prox nas funções de agregação do Spark. Por ex. no Hive, temos percentil_aprox e podemos usá-lo da seguinte ...
Como importar vários arquivos CSV em uma única carga?
Considere que eu tenho um esquema definido para carregar 10 arquivos csv em uma pasta. Existe uma maneira de carregar tabelas automaticamente usando o Spark SQL. Sei que isso pode ser realizado usando um quadro de dados individual para cada ...
Spark Dataframe groupBy com sequência como argumentos de chaves [duplicado]
Esta pergunta já tem uma resposta aqui: Várias operações agregadas na mesma coluna de um dataframe spark [/questions/34954771/multiple-aggregate-operations-on-the-same-column-of-a-spark-dataframe] 2 respostasEu tenho um spark DataFrame e quero ...
Agregando várias colunas com função personalizada no Spark
Fiquei me perguntando se existe alguma maneira de especificar uma função de agregação personalizada para quadros de dados spark em várias colunas. Eu tenho uma tabela como esta do tipo (nome, item, preço): john | tomato | 1.99 john | carrot | ...
Todos os múltiplos quadros de dados
Para um conjunto de quadros de dados val df1 = sc.parallelize(1 to 4).map(i => (i,i*10)).toDF("id","x") val df2 = sc.parallelize(1 to 4).map(i => (i,i*100)).toDF("id","y") val df3 = sc.parallelize(1 to 4).map(i => (i,i*1000)).toDF("id","z")para ...
buscar mais de 20 linhas e exibir o valor total da coluna no shell de faísca
estou usandoCassandraSQLContext do spark-shell para consultar dados do Cassandra. Então, eu quero saber duas coisas: como buscar mais de 20 linhas usandoCassandraSQLContext e segundo, como o ID exibe o valor total da coluna. Como você pode ver ...
O que é uma maneira eficiente de particionar por coluna, mas manter uma contagem de partições fixa?
Qual é a melhor maneira de particionar os dados por um campo na contagem de partições predefinida? No momento, estou particionando os dados especificando o partionCount = 600. A contagem 600 foi encontrada para fornecer o melhor desempenho de ...
Spark 2.0: caminho relativo em URI absoluto (spark-warehouse)
Estou tentando migrar do Spark 1.6.1 para o Spark 2.0.0 e estou recebendo um erro estranho ao tentar ler um arquivo csv no SparkSQL. Anteriormente, quando eu lia um arquivo do disco local no pyspark, eu fazia: Spark 1.6 df = sqlContext.read \ ...
Recuperar n top em cada grupo de um DataFrame no pyspark
Há um DataFrame no pyspark com os dados abaixo: user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2 2 user_2 object_2 6O que eu espero é retornar 2 registros em cada grupo com o mesmo ...
Como iterar scala wrapArray? (Faísca)
Eu executo as seguintes operações: val tempDict = sqlContext.sql("select words.pName_token,collect_set(words.pID) as docids from words group by words.pName_token").toDF() val wordDocs = tempDict.filter(newDict("pName_token")===word) val listDocs ...