Como posso obter o maior conjunto de linhas que compartilham um conjunto comum de pelo menos 4 colunas?

Question

Jan 18, 2015, 10:53 AM

Como posso obter o maior conjunto de linhas que compartilham um conjunto comum de pelo menos 4 colunas?

Eu tenho uma matriz contendo nomes de genes e números de amostras. Cada linha é um vetor lógico indicando as amostras nas quais um gene foi detectado. Os genes devem aparecer em um mínimo de 4 amostras de 8 para chegar até aqui (ainda na matriz). isto é, todos os genes nesta matriz aparecem em 4 ou mais amostras.

       Sample1  Sample2  Sample3  Sample4 Sample5 Sample6  Sample7  Sample8 
gene1  TRUE     FALSE    TRUE     TRUE    TRUE    FALSE    FALSE    FALSE
gene2  FALSE    TRUE     FALSE    TRUE    FALSE   TRUE     TRUE     FALSE
gene3  TRUE     TRUE     FALSE    TRUE    FALSE   TRUE     TRUE     FALSE
gene4  FALSE    FALSE    TRUE     FALSE   TRUE    FALSE    FALSE    TRUE
gene5  TRUE     TRUE     TRUE     TRUE    TRUE    FALSE    TRUE     TRUE
gene6  FALSE    FALSE    TRUE     FALSE   FALSE   TRUE     TRUE     TRUE
gene7  TRUE     TRUE     FALSE    FALSE   TRUE    TRUE     FALSE    FALSE
gene8  TRUE     TRUE     TRUE     TRUE    FALSE   FALSE    FALSE    FALSE

Eu também poderia dizer que tenho a lista de amostras para as quais essa última foi expressa, como:

> gene1
[1] "Sample1"  "Sample3"  "Sample4"  "Sample5"

Como posso obter o maior conjunto de genes (linhas) que pertencem a um conjunto comum de 4 amostras (colunas)?

Edit: Esta pergunta decorre de tentar recriar isso:

A análise externa é baseada na suposição de que amostras (células) do mesmo tipo também possuem um conjunto de genes comumente expressos.

O algoritmo outlier apara iterativamente os genes de baixa expressão em um arquivo de expressão até que 95% dos genes restantes sejam expressos acima do valor do Limite de Detecção (LoD) que você definiu para metade das amostras.

O pressuposto é que o conjunto de amostras contém menos de 50% de outliers. Isso significa que os cálculos subsequentes incluirão apenas a metade das amostras com a maior expressão para a lista de genes aparados.

A lista de genes aparados representa os genes que estão presentes acima do LoD em pelo menos metade das amostras ou nos genes com a expressão mais uniforme - embora eles possam não ser os mais altos ou mais baixos em seu valor de expressão.

Para os 50% das amostras restantes, é calculada uma distribuição que representa seus valores de expressão combinados para a lista de genes definida acima. Para esta distribuição, a mediana representa o valor da expressão percentil 50 para o conjunto de dados.