Resultados da pesquisa a pedido "spark-dataframe"

Estou trabalhando com dados extraídos do SFDC usando o pacote simple-salesforce. Estou usando o Python3 para scripts e o Spark 1.5.2. Eu criei um rdd contendo os seguintes dados: [('Id', 'a0w1a0000003xB1A'), ('PackSize', 1.0), ('Name', 'A')] ...

window-functions apache-spark-sql apache-spark

1 a resposta

Função Apache Spark Window com coluna aninhada

Não tenho certeza se isso é um bug (ou apenas sintaxe incorreta). Eu procurei e não vi isso mencionado em outro lugar, então estou perguntando aqui antes de registrar um relatório de bug. Estou tentando usar uma função de janela particionada em ...

pyspark apache-spark-sql apache-spark spark-streaming

3 a resposta

Interface do usuário do Spark mostrando 0 núcleos, mesmo ao definir núcleos no aplicativo

Estou tendo um problema estranho com a execução de um aplicativo fora do URL mestre do spark, em que a interface do usuário está relatando um "STATE" de "WAITING" indefinidamente, pois 0 núcleos estão aparecendo na tabela RUNNING APPLICATIONs, ...

partitioning yarn apache-spark spark-streaming

1 a resposta

Spark Streaming: Como posso adicionar mais partições ao meu DStream?

Eu tenho um aplicativo de streaming de centelha que se parece com isso: val message = KafkaUtils.createStream(...).map(_._2) message.foreachRDD( rdd => { if (!rdd.isEmpty){ val kafkaDF = sqlContext.read.json(rdd) kafkaDF.foreachPartition( i =>{ ...

scala apache-spark

1 a resposta

como selecionar todas as colunas que começam com um rótulo comum

Eu tenho um quadro de dados no Spark 1.6 e quero selecionar apenas algumas colunas. Os nomes das colunas são como: colA, colB, colC, colD, colE, colF-0, colF-1, colF-2Eu sei que posso fazer assim para selecionar colunas ...

apache-spark-sql apache-spark

4 a resposta

várias condições para filtro em quadros de dados spark

Eu tenho um quadro de dados com quatro campos. um do nome do campo é Status e estou tentando usar uma condição OR no .filter para um dataframe. Eu tentei abaixo consultas, mas sem sorte. df2 = df1.filter(("Status=2") || ("Status =3")) df2 = ...

apache-spark

2 a resposta

Unindo um dataframe de centelha grande e ginormous

Eu tenho dois quadros de dados, o DF1 tem 6 milhões de linhas, o DF2 tem 1 bilhão. Eu tentei o padrãodf1.join(df2,df1("id")<=>df2("id2")), mas a memória está acabando. O df1 é muito grande para ser colocado em uma junção de transmissão. Eu até ...

pyspark apache-spark-sql apache-spark

3 a resposta

Pyspark: preenchimento para frente com última observação para um DataFrame

Usando o Spark 1.5.1, Eu tenho tentado encaminhar preenchimentovalores nuloscom a última observação conhecida parauma colunado meu DataFrame. É possível começar com um valor nulo e, nesse caso, eu preencheria esse valor nulo com a primeira ...

dataframe apache-spark pyspark

2 a resposta

spark: Como fazer um dropDuplicates em um dataframe, mantendo a linha com o timestamp mais alto [duplicado]

Esta pergunta já tem uma resposta aqui: Encontre a linha máxima por grupo no Spark DataFrame [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 respostas Eu tenho um caso de uso em que eu precisaria soltar linhas duplicadas de ...

scala apache-spark-sql apache-spark

1 a resposta

Como modificar um Spark Dataframe com uma estrutura aninhada complexa?

Eu tenho uma estrutura complexa de DataFrame e gostaria de anular uma coluna facilmente. Criei classes implícitas que conectam funcionalidade e abordam facilmente estruturas 2D DataFrame, mas uma vez que o DataFrame se torna mais complicado com ...

Página 11 do 12

8 9 101112

Resultados da pesquisa a pedido "spark-dataframe"

Crie o DataFrame da lista de tuplas usando o pyspark

Função Apache Spark Window com coluna aninhada

Interface do usuário do Spark mostrando 0 núcleos, mesmo ao definir núcleos no aplicativo

Tags populares

Spark Streaming: Como posso adicionar mais partições ao meu DStream?

como selecionar todas as colunas que começam com um rótulo comum

várias condições para filtro em quadros de dados spark

Unindo um dataframe de centelha grande e ginormous

Pyspark: preenchimento para frente com última observação para um DataFrame

spark: Como fazer um dropDuplicates em um dataframe, mantendo a linha com o timestamp mais alto [duplicado]

Como modificar um Spark Dataframe com uma estrutura aninhada complexa?

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "spark-dataframe"

Tags populares