Resultados da pesquisa a pedido "data.table"
Filtrar data.table na mesma condição para várias colunas
Estou usando um vetor de nomes de colunas para selecionar um subconjunto de colunas de uma data.table. Tive a ideia de que é possível definir basicamente condições emi que são aplicados a todas as colunas selecionadas. Por exemplo, usando omtcars ...
Ainda lutando para lidar com grandes conjuntos de dados
Estive lendo este site e não consegui encontrar a resposta exata. Se já existe, peço desculpas pelo repost. Estou trabalhando com conjuntos de dados extremamente grandes (600 milhões de linhas, 64 colunas em um computador com 32 GB de RAM). Eu ...
data.table equivalente a tidyr :: complete ()
tidyr::complete() adiciona linhas a umdata.frame para combinações de valores de coluna que estão faltando nos dados. Exemplo: library(dplyr) library(tidyr) df <- data.frame(person = c(1,2,2), observation_id = c(1,1,2), value = c(1,1,1)) df %>% ...
Como adicionar um índice por conjunto de dados ao usar o rbindlist?
Eu tenho vários arquivos csv diferentes com a mesma estrutura. Eu os li no R usando o fread e depois os uni em um conjunto de dados maior usandorbindlist(). files <- list.files( pattern = "*.csv" ); x2csv <- rbindlist( lapply(files, fread, ...
Calculando a proporção de Levenshtein de cada elemento de uma tabela de dados com cada valor de uma tabela de referência e mesclando com a proporção máxima
Eu tenho um dt data.table com 3 colunas: Eu irianome como stringlimiar como numUma amostra é: dt <- <- data.table(nid = c("n1","n2", "n3", "n4"), rname = c("apple", "pear", "banana", "kiwi"), maxr = c(0.5, 0.8, 0.7, 0.6)) nid | rname | maxr n1 ...
Não deseja que data.table original seja modificado quando passado para uma função
Eu sou fã dedata.table, ao escrever funções reutilizáveis para todas as necessidades atuais e futuras. Aqui está um desafio ao me deparar enquanto trabalhava na resposta para esse problema:Melhor maneira de plotar automaticamente todas as ...
crie uma matriz esparsa; dados os índices de elementos diferentes de zero para a criação de variáveis fictícias de uma coluna categórica de um grande conjunto de dados
Estou tentando usar uma matriz esparsa para gerar variáveis fictícias para um conjunto de dados com 5,8 milhões de linhas e duas colunas categóricas. A estrutura dos dados é: mydata: data.table de 5.800.000 linhas e duas variáveis categóricas ...
H2O rodando mais lentamente que o data.table R
Como é possível que o armazenamento de dados na matriz de H2O seja mais lento que no data.table? #Packages used "H2O" and "data.table" library(h2o) library(data.table) #create the matrix ...
Como encontrar uma sequência monótona e levar em consideração o reinício da sequência ao atingir o máximo
Eu tenho um data.table dizer dt name <- c("a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "u", "v") score <- c(42, 82, 43, 32,47,48, 49, 50, 54, 59, 76, 09, 13, 88, 91, 99, 04, 06, 08, 12, 14, ...
Encontrar sequência monótona e levar em conta o reinício da sequência para atingir o máximo em consideração
Eu tenho um data.table dizer dt name <- letters[1:22] score <- c(42, 82, 43, 32, 47, 48, 49, 50, 54, 59, 76, 9, 13, 88, 91, 99, 4, 6, 8, 12, 14, 15) class <- rep(c('c1', 'c2', 'c3'), c(7, 3, 12)) dt <- data.table(name, score, class)parece ...