Как сравнить кластеры?

Надеюсь, это можно сделать с помощью Python! Я использовал две программы кластеризации для одних и тех же данных, и теперь у меня есть файл кластера из обеих. Я переформатировал файлы, чтобы они выглядели так:

Cluster 0:
Brucellaceae(10)
    Brucella(10)
        abortus(1)
        canis(1)
        ceti(1)
        inopinata(1)
        melitensis(1)
        microti(1)
        neotomae(1)
        ovis(1)
        pinnipedialis(1)
        suis(1)
Cluster 1:
    Streptomycetaceae(28)
        Streptomyces(28)
            achromogenes(1)
            albaduncus(1)
            anthocyanicus(1)

etc.

Эти файлы содержат информацию о бактериальных видах. Итак, у меня есть номер кластера (кластер 0), затем прямо под ним «семейство» (Brucellaceae) и количество бактерий в этом семействе (10). Под этим находятся роды, найденные в этом семействе (имя, за которым следует номер, Brucella (10)) и, наконец, виды в каждом роде (abortus (1) и т. Д.).

Мой вопрос: У меня есть 2 файла, отформатированные таким образом, и я хочу написать программу, которая будет искать различия между ними. Единственная проблема состоит в том, что две программы кластеризуются по-разному, поэтому два кластера могут быть одинаковыми, даже если фактический «номер кластера» различен (поэтому содержимое кластера 1 в одном файле может совпадать с кластером 43 в другом файле, единственное отличие - фактический номер кластера). Поэтому мне нужно что-то, чтобы игнорировать номер кластера и сосредоточиться на содержимом кластера.

Можно ли сравнить эти 2 файла, чтобы проверить различия? Это вообще возможно? Благодарим за любую идею!

Ответы на вопрос(4)

Ваш ответ на вопрос