Как я могу получить самый большой набор строк, которые имеют общий набор не менее 4 столбцов?

У меня есть матрица, содержащая названия генов и номера образцов. Каждая строка представляет собой логический вектор, указывающий образцы, в которых был обнаружен ген. Гены должны появиться как минимум в 4 образцах из 8, чтобы сделать это так далеко (все еще быть в матрице). все гены в этой матрице появляются в 4 или более образцах.

       Sample1  Sample2  Sample3  Sample4 Sample5 Sample6  Sample7  Sample8 
gene1  TRUE     FALSE    TRUE     TRUE    TRUE    FALSE    FALSE    FALSE
gene2  FALSE    TRUE     FALSE    TRUE    FALSE   TRUE     TRUE     FALSE
gene3  TRUE     TRUE     FALSE    TRUE    FALSE   TRUE     TRUE     FALSE
gene4  FALSE    FALSE    TRUE     FALSE   TRUE    FALSE    FALSE    TRUE
gene5  TRUE     TRUE     TRUE     TRUE    TRUE    FALSE    TRUE     TRUE
gene6  FALSE    FALSE    TRUE     FALSE   FALSE   TRUE     TRUE     TRUE
gene7  TRUE     TRUE     FALSE    FALSE   TRUE    TRUE     FALSE    FALSE
gene8  TRUE     TRUE     TRUE     TRUE    FALSE   FALSE    FALSE    FALSE

Я также могу сказать, что у меня есть список образцов, для которых был выражен последний, например:

> gene1
[1] "Sample1"  "Sample3"  "Sample4"  "Sample5"

Как я могу получить самый большой набор генов (строк), которые принадлежат общему набору из 4 образцов (столбцов)?

Изменить: Этот вопрос связан с попыткой воссоздать это:

Внешний анализ основан на предположении, что образцы (клетки) одного типа также имеют набор обычно экспрессируемых генов.

Алгоритм выброса итеративно обрезает низкоэкспрессирующие гены в файле экспрессии до тех пор, пока 95% оставшихся генов не будут экспрессированы выше значения предела обнаружения (LoD), установленного для половины образцов.

Предполагается, что набор образцов содержит менее 50% выбросов. Это означает, что последующие вычисления будут включать только половину образцов, которые имеют наибольшее выражение для урезанного списка генов.

Урезанный список генов представляет гены, которые присутствуют над LoD по крайней мере в половине образцов или наиболее равномерно экспрессированных генов, хотя они могут быть не самыми высокими или самыми низкими по значению их экспрессии.

Для 50% оставшихся образцов рассчитывается распределение, которое представляет их объединенные значения экспрессии для списка генов, определенного выше. Для этого распределения медиана представляет значение выражения 50-го процентиля для набора данных.

Ответы на вопрос(2)

Ваш ответ на вопрос