Диаграмма Венна из списка кластеров и сопутствующих факторов

У меня есть входной файл со списком ~ 50000 кластеров и наличием ряда факторов в каждом из них (всего ~ 10 миллионов записей), см. Меньший пример ниже:

set.seed(1)
x = paste("cluster-",sample(c(1:100),500,replace=TRUE),sep="")
y = c(
  paste("factor-",sample(c(letters[1:3]),300, replace=TRUE),sep=""),
  paste("factor-",sample(c(letters[1]),100, replace=TRUE),sep=""),
  paste("factor-",sample(c(letters[2]),50, replace=TRUE),sep=""),
  paste("factor-",sample(c(letters[3]),50, replace=TRUE),sep="")
)
data = data.frame(cluster=x,factor=y)

С небольшой помощью другого вопроса, я получил его для создания круговой диаграммы для одновременного появления таких факторов:

counts = with(data, table(tapply(factor, cluster, function(x) paste(as.character(sort(unique(x))), collapse='+'))))
pie(counts[counts>1])

Но сейчас я хотел бы иметь диаграмму Венна для одновременного появления факторов. В идеале также таким образом, чтобы можно было принять пороговое значение для минимального количества для каждого фактора. Например, диаграмма Венна для различных факторов, так что каждый из них должен присутствовать n> 10 в каждом кластере, который должен быть принят во внимание.

Я пытался найти способ произвести подсчет таблиц с помощью агрегата, но не смог заставить его работать.

Ответы на вопрос(1)

Ваш ответ на вопрос