Как я могу получить самый большой набор строк, которые имеют общий набор не менее 4 столбцов?
У меня есть матрица, содержащая названия генов и номера образцов. Каждая строка представляет собой логический вектор, указывающий образцы, в которых был обнаружен ген. Гены должны появиться как минимум в 4 образцах из 8, чтобы сделать это так далеко (все еще быть в матрице). все гены в этой матрице появляются в 4 или более образцах.
Sample1 Sample2 Sample3 Sample4 Sample5 Sample6 Sample7 Sample8
gene1 TRUE FALSE TRUE TRUE TRUE FALSE FALSE FALSE
gene2 FALSE TRUE FALSE TRUE FALSE TRUE TRUE FALSE
gene3 TRUE TRUE FALSE TRUE FALSE TRUE TRUE FALSE
gene4 FALSE FALSE TRUE FALSE TRUE FALSE FALSE TRUE
gene5 TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE
gene6 FALSE FALSE TRUE FALSE FALSE TRUE TRUE TRUE
gene7 TRUE TRUE FALSE FALSE TRUE TRUE FALSE FALSE
gene8 TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Я также могу сказать, что у меня есть список образцов, для которых был выражен последний, например:
> gene1
[1] "Sample1" "Sample3" "Sample4" "Sample5"
Как я могу получить самый большой набор генов (строк), которые принадлежат общему набору из 4 образцов (столбцов)?
Изменить: Этот вопрос связан с попыткой воссоздать это:
Внешний анализ основан на предположении, что образцы (клетки) одного типа также имеют набор обычно экспрессируемых генов.
Алгоритм выброса итеративно обрезает низкоэкспрессирующие гены в файле экспрессии до тех пор, пока 95% оставшихся генов не будут экспрессированы выше значения предела обнаружения (LoD), установленного для половины образцов.
Предполагается, что набор образцов содержит менее 50% выбросов. Это означает, что последующие вычисления будут включать только половину образцов, которые имеют наибольшее выражение для урезанного списка генов.
Урезанный список генов представляет гены, которые присутствуют над LoD по крайней мере в половине образцов или наиболее равномерно экспрессированных генов, хотя они могут быть не самыми высокими или самыми низкими по значению их экспрессии.
Для 50% оставшихся образцов рассчитывается распределение, которое представляет их объединенные значения экспрессии для списка генов, определенного выше. Для этого распределения медиана представляет значение выражения 50-го процентиля для набора данных.