R поиск дубликатов в одном столбце и свертывание во втором столбце
У меня есть фрейм данных с двумя столбцами, связывающимися со строками символов. в одном столбце (названныйprobes
) У меня есть дублированные случаи (то есть несколько случаев с одинаковой строкой символов). для каждого случая в пробах я хочу найти все случаи, содержащие одну и ту же строку, а затем объединить значения всех соответствующих случаев во втором столбце (названномgenes
) в одном случае.
например, если у меня есть эта структура:
probes genes
1 cg00050873 TSPY4
2 cg00061679 DAZ1
3 cg00061679 DAZ4
4 cg00061679 DAZ4
Я хочу изменить это на эту структуру:
probes genes
1 cg00050873 TSPY4
2 cg00061679 DAZ1 DAZ4 DAZ4
очевидно, нет проблем сделать это для одного зонда, который использует, а затем вставить и свернуть
ind<-which(olap$probes=="cg00061679")
genename<-(olap[ind,2])
genecomb<-paste(genename[1:length(genename)], collapse=" ")
но я не уверен, как извлечь индексы дубликатов в столбце зондов по всему фрейму данных. есть идеи?
заранее спасибо