Resultados da pesquisa a pedido "spark-dataframe"

1 a resposta

Crie o DataFrame da lista de tuplas usando o pyspark

Estou trabalhando com dados extraídos do SFDC usando o pacote simple-salesforce. Estou usando o Python3 para scripts e o Spark 1.5.2. Eu criei um rdd contendo os seguintes dados: [('Id', 'a0w1a0000003xB1A'), ('PackSize', 1.0), ('Name', 'A')] ...

1 a resposta

Função Apache Spark Window com coluna aninhada

Não tenho certeza se isso é um bug (ou apenas sintaxe incorreta). Eu procurei e não vi isso mencionado em outro lugar, então estou perguntando aqui antes de registrar um relatório de bug. Estou tentando usar uma função de janela particionada em ...

3 a resposta

Interface do usuário do Spark mostrando 0 núcleos, mesmo ao definir núcleos no aplicativo

Estou tendo um problema estranho com a execução de um aplicativo fora do URL mestre do spark, em que a interface do usuário está relatando um "STATE" de "WAITING" indefinidamente, pois 0 núcleos estão aparecendo na tabela RUNNING APPLICATIONs, ...

1 a resposta

Spark Streaming: Como posso adicionar mais partições ao meu DStream?

Eu tenho um aplicativo de streaming de centelha que se parece com isso: val message = KafkaUtils.createStream(...).map(_._2) message.foreachRDD( rdd => { if (!rdd.isEmpty){ val kafkaDF = sqlContext.read.json(rdd) kafkaDF.foreachPartition( i =>{ ...

1 a resposta

como selecionar todas as colunas que começam com um rótulo comum

Eu tenho um quadro de dados no Spark 1.6 e quero selecionar apenas algumas colunas. Os nomes das colunas são como: colA, colB, colC, colD, colE, colF-0, colF-1, colF-2Eu sei que posso fazer assim para selecionar colunas ...

4 a resposta

várias condições para filtro em quadros de dados spark

Eu tenho um quadro de dados com quatro campos. um do nome do campo é Status e estou tentando usar uma condição OR no .filter para um dataframe. Eu tentei abaixo consultas, mas sem sorte. df2 = df1.filter(("Status=2") || ("Status =3")) df2 = ...

2 a resposta

Unindo um dataframe de centelha grande e ginormous

Eu tenho dois quadros de dados, o DF1 tem 6 milhões de linhas, o DF2 tem 1 bilhão. Eu tentei o padrãodf1.join(df2,df1("id")<=>df2("id2")), mas a memória está acabando. O df1 é muito grande para ser colocado em uma junção de transmissão. Eu até ...

3 a resposta

Pyspark: preenchimento para frente com última observação para um DataFrame

Usando o Spark 1.5.1, Eu tenho tentado encaminhar preenchimentovalores nuloscom a última observação conhecida parauma colunado meu DataFrame. É possível começar com um valor nulo e, nesse caso, eu preencheria esse valor nulo com a primeira ...

2 a resposta

spark: Como fazer um dropDuplicates em um dataframe, mantendo a linha com o timestamp mais alto [duplicado]

Esta pergunta já tem uma resposta aqui: Encontre a linha máxima por grupo no Spark DataFrame [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 respostas Eu tenho um caso de uso em que eu precisaria soltar linhas duplicadas de ...

1 a resposta

Como modificar um Spark Dataframe com uma estrutura aninhada complexa?

Eu tenho uma estrutura complexa de DataFrame e gostaria de anular uma coluna facilmente. Criei classes implícitas que conectam funcionalidade e abordam facilmente estruturas 2D DataFrame, mas uma vez que o DataFrame se torna mais complicado com ...