Como posso obter o maior conjunto de linhas que compartilham um conjunto comum de pelo menos 4 colunas?
Eu tenho uma matriz contendo nomes de genes e números de amostras. Cada linha é um vetor lógico indicando as amostras nas quais um gene foi detectado. Os genes devem aparecer em um mínimo de 4 amostras de 8 para chegar até aqui (ainda na matriz). isto é, todos os genes nesta matriz aparecem em 4 ou mais amostras.
Sample1 Sample2 Sample3 Sample4 Sample5 Sample6 Sample7 Sample8
gene1 TRUE FALSE TRUE TRUE TRUE FALSE FALSE FALSE
gene2 FALSE TRUE FALSE TRUE FALSE TRUE TRUE FALSE
gene3 TRUE TRUE FALSE TRUE FALSE TRUE TRUE FALSE
gene4 FALSE FALSE TRUE FALSE TRUE FALSE FALSE TRUE
gene5 TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE
gene6 FALSE FALSE TRUE FALSE FALSE TRUE TRUE TRUE
gene7 TRUE TRUE FALSE FALSE TRUE TRUE FALSE FALSE
gene8 TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Eu também poderia dizer que tenho a lista de amostras para as quais essa última foi expressa, como:
> gene1
[1] "Sample1" "Sample3" "Sample4" "Sample5"
Como posso obter o maior conjunto de genes (linhas) que pertencem a um conjunto comum de 4 amostras (colunas)?
Edit: Esta pergunta decorre de tentar recriar isso:
A análise externa é baseada na suposição de que amostras (células) do mesmo tipo também possuem um conjunto de genes comumente expressos.
O algoritmo outlier apara iterativamente os genes de baixa expressão em um arquivo de expressão até que 95% dos genes restantes sejam expressos acima do valor do Limite de Detecção (LoD) que você definiu para metade das amostras.
O pressuposto é que o conjunto de amostras contém menos de 50% de outliers. Isso significa que os cálculos subsequentes incluirão apenas a metade das amostras com a maior expressão para a lista de genes aparados.
A lista de genes aparados representa os genes que estão presentes acima do LoD em pelo menos metade das amostras ou nos genes com a expressão mais uniforme - embora eles possam não ser os mais altos ou mais baixos em seu valor de expressão.
Para os 50% das amostras restantes, é calculada uma distribuição que representa seus valores de expressão combinados para a lista de genes definida acima. Para esta distribuição, a mediana representa o valor da expressão percentil 50 para o conjunto de dados.