using python nltk para encontrar similitud entre dos páginas web?

Quiero saber si dos páginas web son similares o no. ¿Alguien puede sugerir si python nltk con funciones de similitud de Wordnet es útil y cómo? ¿Cuál es la mejor función de similitud que se utilizará en este caso?