Resultados da pesquisa a pedido "spark-dataframe"
Crie o DataFrame da lista de tuplas usando o pyspark
Estou trabalhando com dados extraídos do SFDC usando o pacote simple-salesforce. Estou usando o Python3 para scripts e o Spark 1.5.2. Eu criei um rdd contendo os seguintes dados: [('Id', 'a0w1a0000003xB1A'), ('PackSize', 1.0), ('Name', 'A')] ...
Função Apache Spark Window com coluna aninhada
Não tenho certeza se isso é um bug (ou apenas sintaxe incorreta). Eu procurei e não vi isso mencionado em outro lugar, então estou perguntando aqui antes de registrar um relatório de bug. Estou tentando usar uma função de janela particionada em ...
Interface do usuário do Spark mostrando 0 núcleos, mesmo ao definir núcleos no aplicativo
Estou tendo um problema estranho com a execução de um aplicativo fora do URL mestre do spark, em que a interface do usuário está relatando um "STATE" de "WAITING" indefinidamente, pois 0 núcleos estão aparecendo na tabela RUNNING APPLICATIONs, ...
Spark Streaming: Como posso adicionar mais partições ao meu DStream?
Eu tenho um aplicativo de streaming de centelha que se parece com isso: val message = KafkaUtils.createStream(...).map(_._2) message.foreachRDD( rdd => { if (!rdd.isEmpty){ val kafkaDF = sqlContext.read.json(rdd) kafkaDF.foreachPartition( i =>{ ...
como selecionar todas as colunas que começam com um rótulo comum
Eu tenho um quadro de dados no Spark 1.6 e quero selecionar apenas algumas colunas. Os nomes das colunas são como: colA, colB, colC, colD, colE, colF-0, colF-1, colF-2Eu sei que posso fazer assim para selecionar colunas ...
várias condições para filtro em quadros de dados spark
Eu tenho um quadro de dados com quatro campos. um do nome do campo é Status e estou tentando usar uma condição OR no .filter para um dataframe. Eu tentei abaixo consultas, mas sem sorte. df2 = df1.filter(("Status=2") || ("Status =3")) df2 = ...
Unindo um dataframe de centelha grande e ginormous
Eu tenho dois quadros de dados, o DF1 tem 6 milhões de linhas, o DF2 tem 1 bilhão. Eu tentei o padrãodf1.join(df2,df1("id")<=>df2("id2")), mas a memória está acabando. O df1 é muito grande para ser colocado em uma junção de transmissão. Eu até ...
Pyspark: preenchimento para frente com última observação para um DataFrame
Usando o Spark 1.5.1, Eu tenho tentado encaminhar preenchimentovalores nuloscom a última observação conhecida parauma colunado meu DataFrame. É possível começar com um valor nulo e, nesse caso, eu preencheria esse valor nulo com a primeira ...
spark: Como fazer um dropDuplicates em um dataframe, mantendo a linha com o timestamp mais alto [duplicado]
Esta pergunta já tem uma resposta aqui: Encontre a linha máxima por grupo no Spark DataFrame [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 respostas Eu tenho um caso de uso em que eu precisaria soltar linhas duplicadas de ...
Como modificar um Spark Dataframe com uma estrutura aninhada complexa?
Eu tenho uma estrutura complexa de DataFrame e gostaria de anular uma coluna facilmente. Criei classes implícitas que conectam funcionalidade e abordam facilmente estruturas 2D DataFrame, mas uma vez que o DataFrame se torna mais complicado com ...