Wykorzystanie WordNet do określenia semantycznego podobieństwa między dwoma tekstami?
Jak można określić podobieństwo semantyczne między dwoma tekstami w Pythonie przy użyciu WordNet?
Oczywistym wyprzedzeniem byłoby usunięcie słów zatrzymania i wyprowadzenie, ale co z tego?
Jedynym sposobem, w jaki mogę pomyśleć, byłoby obliczenie odległości ścieżki WordNet między każdym słowem w dwóch tekstach. To jest standard dla unigramów. Są to jednak duże (400 słów) teksty, które są dokumentami w języku naturalnym, ze słowami, które nie są w żadnej określonej kolejności lub strukturze (inne niż te narzucone przez gramatykę angielską). Więc jakie słowa porównałbyś między tekstami? Jak zrobiłbyś to w Pythonie?