Resultados da pesquisa a pedido "dataframe"
Encontre os principais deciles do dataframe por grupo
Estou tentando criar novas variáveis usando uma função elapply em vez de trabalhar diretamente nos dados com loops. Eu costumava usar o Stata e teria resolvido esse problema com um método semelhante ao ...
renomeando colunas para agregados de quadros de dados pyspark
Estou analisando alguns dados com quadros de dados pyspark, suponha que eu tenha um quadro de dadosdf que estou agregando: df.groupBy("group")\ .agg({"money":"sum"})\ .show(100)Isso me dará: group SUM(money#2L) A 137461285853 B 172185566943 C ...
Python / Pandas: contando o número de / NaN ausentes em cada linha
Eu tenho um conjunto de dados com um grande número de linhas. Alguns dos valores são NaN, assim: In [91]: df Out[91]: 1 3 1 1 1 1 3 1 1 1 2 3 1 1 1 1 1 NaN NaN NaN 1 3 1 1 1 1 1 1 1 1E eu quero contar o número de valores de NaN em cada string, ...
Determinando quando um valor de coluna é alterado no quadro de dados do pandas
Estou procurando escrever um script rápido que será executado em um arquivo csv com duas colunas e fornecerá as linhas nas quais os valores na coluna B alternam de um valor para outro: por exemplo: quadro de dados: # | A | B --+-----+----- 1 | ...
Criar nova coluna com função no Spark Dataframe
Estou tentando descobrir a nova API de dataframe no Spark. parece um bom passo à frente, mas com problemas para fazer algo que deve ser bem simples. Eu tenho um quadro de dados com 2 colunas, "ID" e "Valor". Como um exemplo genérico, digamos que ...
Achatar a coluna da lista no quadro de dados com a coluna ID
Meu quadro de dados contém a saída de uma pesquisa com um tipo de pergunta múltipla selecionado. Algumas células têm vários valores. df <- data.frame(a=1:3,b=I(list(1,1:2,1:3))) df a b 1 1 1 2 2 1, 2 3 3 1, 2, 3 Gostaria de achatar a lista para ...
O comando df.fillna (0) não substitui os valores de NaN por 0
Estou tentando substituir os valores de NaN gerados no código abaixo para 0. Não entendo o que o abaixo não vai funcionar. Ele ainda mantém os valores de NaN. df_pubs=pd.read_sql("select Conference, Year, count(*) as totalPubs from publications ...
Como dinamizar o DataFrame?
Estou começando a usar o Spark DataFrames e preciso poder dinamizar os dados para criar várias colunas de uma coluna com várias linhas. Existe funcionalidade embutida para isso no Scalding e acredito no Pandas em Python, mas não consigo encontrar ...
Expanda o quadro de dados em combinações de pares de linhas
Eu tenho um quadro de dados que contém uma coluna identificador / chave seguida por várias linhas de colunas de valor. Desejo expandir a coluna de dados usando pares exclusivos de entradas na coluna-chave como as novas linhas e transformar as ...
Calcular a média de cada 13 linhas no quadro de dados
Eu tenho um quadro de dados com 2 colunas e linha 3659df Estou tentando reduzir o conjunto de dados calculando a média de cada 10 ou 13 linhas nesse quadro de dados, então tentei o seguinte: # number of rows per group n=13 # number of groups ...