Resultados da pesquisa a pedido "dataframe"
Compare dois data.frames para encontrar as linhas no data.frame 1 que não estão presentes no data.frame 2
Eu tenho os seguintes 2 data.frames: a1 <- data.frame(a = 1:5, b=letters[1:5]) a2 <- data.frame(a = 1:3, b=letters[1:3])Eu quero encontrar a linha a1 tem que a2 não. Existe uma função integrada para esse tipo de operação? (p.s: eu escrevi uma ...
Contar o número de linhas entre duas datas por ID em um grupo de pandas
Eu tenho o seguinte teste DataFrame: import random from datetime import timedelta import pandas as pd import datetime #create test range of dates rng=pd.date_range(datetime.date(2015,1,1),datetime.date(2015,7,31)) rnglist=rng.tolist() testpts = ...
Gráfico de distribuição R com dados e limites de NA
Eu tenho um arquivo de dados grande no formulário: Input_SNP Set_1 Set_2 Set_3 Set_4 Set_5 Set_6 1.09 0.162 NA 2.312 1.876 0.12 0.812 0.687 NA 0.987 1.32 1.11 1.04 NA NA 1.890 0.923 1.43 0.900 2.02 2.7 2.801 0.642 0.791 0.812 NA 0.31 1.60 1.33 ...
SPARK: falha: `` união '' esperada, mas `('encontrada
Eu tenho um dataframe chamado df com a coluna employee_id. Estou fazendo: df.registerTempTable("d_f") val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f""" val result = Spark.getSqlContext().sql(query)Mas ...
Calculando a distância entre pontos em diferentes quadros de dados
Estou tentando encontrar a distância entre pontos em dois quadros de dados diferentes, pois eles têm o mesmo valor em uma de suas colunas. Eu acho que o primeiro passo é unir ou relacionar os dados nos dois quadros de dados. Por exemplo, há os ...
contagens de combinações de valores em um dataframe R
Eu tenho um dataframe assim: df<-structure(list(id = c("A", "A", "A", "B", "B", "C", "C", "D", "D", "E", "E"), expertise = c("r", "python", "julia", "python", "r", "python", "julia", "python", "julia", "r", "julia")), class = c("tbl_df", "tbl", ...
Dividindo o quadro de dados em blocos pelas linhas que atendem à condição especificada
Eu tenho um quadro de dados semelhante a: col1 col2 1 10 1 30 2 60 3 20 3 12 3 51 3 11Quero dividir esse dataframe em chanks quando o valor em col2 for maior que 50: dataframe #1 col1 col2 1 10 1 30 2 60 dataframe #2 col1 col2 3 20 3 12 3 ...
Junte dois quadros de dados no R com base no carimbo de data e hora mais próximo
Olá, eu tenho duas tabelas (tabela1 e tabela2 abaixo) e gostaria de juntá-las com base no carimbo de data / hora mais próximo para formar a expectativa de saída. Algum tipo de solução envolvendo dplyr seria ótimo, se possível, mas não se isso ...
Grupo de quadros de dados do Spark
Eu estou tentando fazer alguma análise sobre conjuntos. Eu tenho um conjunto de dados de exemplo que se parece com isso: orders.json {"items":[1,2,3,4,5]} {"items":[1,2,5]} {"items":[1,3,5]} {"items":[3,4,5]}Tudo o que existe é um único campo ...
Obter nomes de colunas onde dat é igual a
Eu tenho um quadro de dados (df) com 7 linhas e 4 colunas (nomeadas c1, c2, c3, c4): c1 c2 c3 c4 Yes No Yes No Yes Yes No No No Yes No No Yes No No No Yes No Yes No Yes No No No No No Yes NoQuero adicionar uma quinta coluna ao quadro de ...