Wykorzystanie WordNet do określenia semantycznego podobieństwa między dwoma tekstami?

Question

Jul 13, 2012, 04:35 AM

nltk wordnet semantic-analysis nlp python

Wykorzystanie WordNet do określenia semantycznego podobieństwa między dwoma tekstami?

Jak można określić podobieństwo semantyczne między dwoma tekstami w Pythonie przy użyciu WordNet?

Oczywistym wyprzedzeniem byłoby usunięcie słów zatrzymania i wyprowadzenie, ale co z tego?

Jedynym sposobem, w jaki mogę pomyśleć, byłoby obliczenie odległości ścieżki WordNet między każdym słowem w dwóch tekstach. To jest standard dla unigramów. Są to jednak duże (400 słów) teksty, które są dokumentami w języku naturalnym, ze słowami, które nie są w żadnej określonej kolejności lub strukturze (inne niż te narzucone przez gramatykę angielską). Więc jakie słowa porównałbyś między tekstami? Jak zrobiłbyś to w Pythonie?