Resultados da pesquisa a pedido "dataframe"

3 a resposta

Como comparar dois quadros / tabelas de dados e extrair dados no R?

Na tentativa de extrair incompatibilidades entre os dois quadros de dados abaixo, eu já consegui criar um novo quadro de dados no qual as incompatibilidades são substituídas. O que eu preciso agora é de uma lista de incompatibilidades: dfA <- ...

1 a resposta

Como dividir duas colunas em um dataframe

Então, no meu dataframe eu tenho 2 colunas. E eu gostaria de dividir essas duas colunas (a & b), valor por valor, e mostrá-lo. import pandas as pd csv1=pd.read_csv('autoEntão, no meu dataframe eu tenho 2 colunas. E eu gostaria de dividir essas ...

2 a resposta

spark: Como fazer um dropDuplicates em um dataframe, mantendo a linha com o timestamp mais alto [duplicado]

Esta pergunta já tem uma resposta aqui: Encontre a linha máxima por grupo no Spark DataFrame [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 respostas Eu tenho um caso de uso em que eu precisaria soltar linhas duplicadas de ...

2 a resposta

Data / data do Pandas cortando data e hora com Index vs MultiIndex

Com um único quadro de dados indexado, posso fazer o seguinte: df2 = DataFrame(data={'data': [1,2,3]}, index=Index([dt(2016,1,1), dt(2016,1,2), dt(2016,2,1)])) >>> df2['2016-01 : '2016-01'] data 2016-01-01 1 2016-01-02 2 >>> df2['2016-01-01' : ...

1 a resposta

Soma operação no PySpark DataFrame dando TypeError quando o tipo é bom

Eu tenho esse DataFrame no PySpark (este é o resultado de uma captura (3), o dataframe é muito grande): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)]o mesmoproprietário terá mais ...

2 a resposta

Copie o dataframe do pandas para o Excel usando openpyxl

Tenho algumas formações complicadas salvas em um arquivo de modelo no qual preciso salvar dados de um dataframe do pandas. O problema é que quando eu uso o pd.to_excel para salvar nesta planilha, o pandas substitui a formatação. Existe uma ...

1 a resposta

Pandas: N principais linhas, N principais linhas por grupo, equivalente a ROW_NUMBER OVER (PARTITION BY… ORDER BY…)

Qual é o python equivalente à função TOP no T-SQL? Estou procurando filtrar meu dataframe para as 50 mil linhas principais. Procurei on-line e não consigo encontrar um exemplo simples.

3 a resposta

extrair o valor da coluna com base em outra coluna pandas dataframe

Estou meio empolgado em extrair valor de um condicionamento de variável em outra variável. Por exemplo, o seguinte quadro de dados: A B p1 1 p1 2 p3 3 p2 4Como posso obter o valor deA quandoB=3? Toda vez que extraí o valor deA, Eu tenho um ...

1 a resposta

Agrupe DataFrame em intervalos de 5 minutos

Como obtenho apenas os dados de 5 minutos usando Python / pandas deste csv? Para cada intervalo de 5 minutos, estou tentando obter DATA, HORA, ABERTO, ALTO, BAIXO, FECHADO, VOLUME para esse intervalo de 5 minutos. DATE TIME OPEN HIGH LOW CLOSE ...

1 a resposta

Como executar uma instrução Switch com os quadros de dados Apache Spark (Python)

Estou tentando executar uma operação nos meus dados em que um determinado valor será mapeado para uma lista de valores predeterminados, se corresponder a um dos critérios, ou para um valor de retorno caso contrário. Este seria o SQL ...