Как сравнить кластеры?
Надеюсь, это можно сделать с помощью Python! Я использовал две программы кластеризации для одних и тех же данных, и теперь у меня есть файл кластера из обеих. Я переформатировал файлы, чтобы они выглядели так:
Cluster 0:
Brucellaceae(10)
Brucella(10)
abortus(1)
canis(1)
ceti(1)
inopinata(1)
melitensis(1)
microti(1)
neotomae(1)
ovis(1)
pinnipedialis(1)
suis(1)
Cluster 1:
Streptomycetaceae(28)
Streptomyces(28)
achromogenes(1)
albaduncus(1)
anthocyanicus(1)
etc.
Эти файлы содержат информацию о бактериальных видах. Итак, у меня есть номер кластера (кластер 0), затем прямо под ним «семейство» (Brucellaceae) и количество бактерий в этом семействе (10). Под этим находятся роды, найденные в этом семействе (имя, за которым следует номер, Brucella (10)) и, наконец, виды в каждом роде (abortus (1) и т. Д.).
Мой вопрос: У меня есть 2 файла, отформатированные таким образом, и я хочу написать программу, которая будет искать различия между ними. Единственная проблема состоит в том, что две программы кластеризуются по-разному, поэтому два кластера могут быть одинаковыми, даже если фактический «номер кластера» различен (поэтому содержимое кластера 1 в одном файле может совпадать с кластером 43 в другом файле, единственное отличие - фактический номер кластера). Поэтому мне нужно что-то, чтобы игнорировать номер кластера и сосредоточиться на содержимом кластера.
Можно ли сравнить эти 2 файла, чтобы проверить различия? Это вообще возможно? Благодарим за любую идею!