Resultados da pesquisa a pedido "apache-spark-sql"

Estou tentando calcular o percentil de uma coluna em um DataFrame? Não consigo encontrar nenhuma função percentil_prox nas funções de agregação do Spark. Por ex. no Hive, temos percentil_aprox e podemos usá-lo da seguinte ...

spark-dataframe apache-spark

5 a resposta

Como importar vários arquivos CSV em uma única carga?

Considere que eu tenho um esquema definido para carregar 10 arquivos csv em uma pasta. Existe uma maneira de carregar tabelas automaticamente usando o Spark SQL. Sei que isso pode ser realizado usando um quadro de dados individual para cada ...

apache-spark scala

1 a resposta

Spark Dataframe groupBy com sequência como argumentos de chaves [duplicado]

Esta pergunta já tem uma resposta aqui: Várias operações agregadas na mesma coluna de um dataframe spark [/questions/34954771/multiple-aggregate-operations-on-the-same-column-of-a-spark-dataframe] 2 respostasEu tenho um spark DataFrame e quero ...

orc dataframe apache-spark scala

4 a resposta

Agregando várias colunas com função personalizada no Spark

Fiquei me perguntando se existe alguma maneira de especificar uma função de agregação personalizada para quadros de dados spark em várias colunas. Eu tenho uma tabela como esta do tipo (nome, item, preço): john | tomato | 1.99 john | carrot | ...

apache-spark scala

2 a resposta

Todos os múltiplos quadros de dados

Para um conjunto de quadros de dados val df1 = sc.parallelize(1 to 4).map(i => (i,i*10)).toDF("id","x") val df2 = sc.parallelize(1 to 4).map(i => (i,i*100)).toDF("id","y") val df3 = sc.parallelize(1 to 4).map(i => (i,i*1000)).toDF("id","z")para ...

scala apache-spark dataframe

2 a resposta

buscar mais de 20 linhas e exibir o valor total da coluna no shell de faísca

estou usandoCassandraSQLContext do spark-shell para consultar dados do Cassandra. Então, eu quero saber duas coisas: como buscar mais de 20 linhas usandoCassandraSQLContext e segundo, como o ID exibe o valor total da coluna. Como você pode ver ...

apache-spark

1 a resposta

O que é uma maneira eficiente de particionar por coluna, mas manter uma contagem de partições fixa?

Qual é a melhor maneira de particionar os dados por um campo na contagem de partições predefinida? No momento, estou particionando os dados especificando o partionCount = 600. A contagem 600 foi encontrada para fornecer o melhor desempenho de ...

windows pyspark apache-spark pyspark-sql

1 a resposta

Spark 2.0: caminho relativo em URI absoluto (spark-warehouse)

Estou tentando migrar do Spark 1.6.1 para o Spark 2.0.0 e estou recebendo um erro estranho ao tentar ler um arquivo csv no SparkSQL. Anteriormente, quando eu lia um arquivo do disco local no pyspark, eu fazia: Spark 1.6 df = sqlContext.read \ ...

pyspark apache-spark python dataframe

3 a resposta

Recuperar n top em cada grupo de um DataFrame no pyspark

Há um DataFrame no pyspark com os dados abaixo: user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2 2 user_2 object_2 6O que eu espero é retornar 2 registros em cada grupo com o mesmo ...

scala apache-spark

1 a resposta

Como iterar scala wrapArray? (Faísca)

Eu executo as seguintes operações: val tempDict = sqlContext.sql("select words.pName_token,collect_set(words.pID) as docids from words group by words.pName_token").toDF() val wordDocs = tempDict.filter(newDict("pName_token")===word) val listDocs ...

Página 2 do 52

123 4 5

Resultados da pesquisa a pedido "apache-spark-sql"

Como calcular o percentil da coluna em um DataFrame no spark?

Como importar vários arquivos CSV em uma única carga?

Spark Dataframe groupBy com sequência como argumentos de chaves [duplicado]

Tags populares

Agregando várias colunas com função personalizada no Spark

Todos os múltiplos quadros de dados

buscar mais de 20 linhas e exibir o valor total da coluna no shell de faísca

O que é uma maneira eficiente de particionar por coluna, mas manter uma contagem de partições fixa?

Spark 2.0: caminho relativo em URI absoluto (spark-warehouse)

Recuperar n top em cada grupo de um DataFrame no pyspark

Como iterar scala wrapArray? (Faísca)

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark-sql"

Tags populares