Jak porównać klastry?

Mam nadzieję, że można to zrobić za pomocą Pythona! Użyłem dwóch programów klastrowania na tych samych danych i teraz mam plik klastra z obu. Ponownie sformatowałem pliki, aby wyglądały tak:

Cluster 0:
Brucellaceae(10)
    Brucella(10)
        abortus(1)
        canis(1)
        ceti(1)
        inopinata(1)
        melitensis(1)
        microti(1)
        neotomae(1)
        ovis(1)
        pinnipedialis(1)
        suis(1)
Cluster 1:
    Streptomycetaceae(28)
        Streptomyces(28)
            achromogenes(1)
            albaduncus(1)
            anthocyanicus(1)

etc.

Pliki te zawierają informacje o gatunkach bakterii. Mam więc numer klastra (klaster 0), a następnie tuż pod nim „rodzina” (Brucellaceae) i liczba bakterii w tej rodzinie (10). Pod tym rodzajem znajdują się rodzaje z tej rodziny (nazwa, po której następuje numer, Brucella (10)), a na koniec gatunek w każdym rodzaju (abortus (1) itd.).

Moje pytanie: Mam 2 pliki sformatowane w ten sposób i chcę napisać program, który będzie szukał różnic między nimi. Jedynym problemem jest to, że dwa programy klastra na różne sposoby, więc dwa klastry mogą być takie same, nawet jeśli rzeczywisty „numer klastra” jest inny (więc zawartość klastra 1 w jednym pliku może pasować do klastra 43 w innym pliku, jedynym innym jest faktyczny numer klastra). Potrzebuję więc czegoś, aby zignorować numer klastra i skupić się na zawartości klastra.

Czy jest jakiś sposób, aby porównać te dwa pliki, aby zbadać różnice? Czy to możliwe? Wszelkie pomysły byłyby bardzo mile widziane!

questionAnswers(4)

yourAnswerToTheQuestion