Resultados da pesquisa a pedido "dataframe"

3 a resposta

Encontre os principais deciles do dataframe por grupo

Estou tentando criar novas variáveis usando uma função elapply em vez de trabalhar diretamente nos dados com loops. Eu costumava usar o Stata e teria resolvido esse problema com um método semelhante ao ...

6 a resposta

renomeando colunas para agregados de quadros de dados pyspark

Estou analisando alguns dados com quadros de dados pyspark, suponha que eu tenha um quadro de dadosdf que estou agregando: df.groupBy("group")\ .agg({"money":"sum"})\ .show(100)Isso me dará: group SUM(money#2L) A 137461285853 B 172185566943 C ...

1 a resposta

Python / Pandas: contando o número de / NaN ausentes em cada linha

Eu tenho um conjunto de dados com um grande número de linhas. Alguns dos valores são NaN, assim: In [91]: df Out[91]: 1 3 1 1 1 1 3 1 1 1 2 3 1 1 1 1 1 NaN NaN NaN 1 3 1 1 1 1 1 1 1 1E eu quero contar o número de valores de NaN em cada string, ...

1 a resposta

Determinando quando um valor de coluna é alterado no quadro de dados do pandas

Estou procurando escrever um script rápido que será executado em um arquivo csv com duas colunas e fornecerá as linhas nas quais os valores na coluna B alternam de um valor para outro: por exemplo: quadro de dados: # | A | B --+-----+----- 1 | ...

3 a resposta

Criar nova coluna com função no Spark Dataframe

Estou tentando descobrir a nova API de dataframe no Spark. parece um bom passo à frente, mas com problemas para fazer algo que deve ser bem simples. Eu tenho um quadro de dados com 2 colunas, "ID" e "Valor". Como um exemplo genérico, digamos que ...

4 a resposta

Achatar a coluna da lista no quadro de dados com a coluna ID

Meu quadro de dados contém a saída de uma pesquisa com um tipo de pergunta múltipla selecionado. Algumas células têm vários valores. df <- data.frame(a=1:3,b=I(list(1,1:2,1:3))) df a b 1 1 1 2 2 1, 2 3 3 1, 2, 3 Gostaria de achatar a lista para ...

1 a resposta

O comando df.fillna (0) não substitui os valores de NaN por 0

Estou tentando substituir os valores de NaN gerados no código abaixo para 0. Não entendo o que o abaixo não vai funcionar. Ele ainda mantém os valores de NaN. df_pubs=pd.read_sql("select Conference, Year, count(*) as totalPubs from publications ...

6 a resposta

Como dinamizar o DataFrame?

Estou começando a usar o Spark DataFrames e preciso poder dinamizar os dados para criar várias colunas de uma coluna com várias linhas. Existe funcionalidade embutida para isso no Scalding e acredito no Pandas em Python, mas não consigo encontrar ...

4 a resposta

Expanda o quadro de dados em combinações de pares de linhas

Eu tenho um quadro de dados que contém uma coluna identificador / chave seguida por várias linhas de colunas de valor. Desejo expandir a coluna de dados usando pares exclusivos de entradas na coluna-chave como as novas linhas e transformar as ...

3 a resposta

Calcular a média de cada 13 linhas no quadro de dados

Eu tenho um quadro de dados com 2 colunas e linha 3659df Estou tentando reduzir o conjunto de dados calculando a média de cada 10 ou 13 linhas nesse quadro de dados, então tentei o seguinte: # number of rows per group n=13 # number of groups ...