Идея с n-граммами состоит в том, что вы можете увидеть обычные слова, которые рядом с "теннис". Тот факт, что они появляются рядом друг с другом, показывает, что, вероятно, существует определенная связь.

аюсь найти слова (в частности, физические объекты), связанные с одним словом. Например:

Теннис: теннисная ракетка, теннисный мяч, теннисная обувь

снукер: снукерный кий, снукерный шар, мел

шахматы: шахматная доска, шахматная фигура

этажерка: книга

Я пытался использовать WordNet, в частности, семантические отношения meronym; Однако этот метод не является последовательным, как показывают результаты ниже:

Теннис: подача, залп, неисправность, заданное значение, возврат, преимущество

снукер: ничего

шахматы: шахматный ход, шахматная доска (чьи собственные соотношения meronym показывают «квадрат» и «диагональ»)

этажерка: полка

В конечном итоге потребуется взвешивание сроков, но сейчас это не является проблемой.

У кого-нибудь есть предложения, как это сделать?

Просто обновление: закончилось с использованием смеси ответов Джеффа и StompChicken.

Качество информации, полученной из Википедии, превосходно, особенно потому, что (что неудивительно) так много актуальной информации (по сравнению с некоторыми корпорациями, где такие термины, как «блог» и «iPod» не существуют).

Диапазон результатов из Википедии - лучшая часть. Программное обеспечение может соответствовать таким терминам, как (списки сокращены для краткости):

гольф: [мяч, железо, футболка, сумка, клуб]фотография: [камера, фильм, фотография, искусство, изображение]рыбалка: [рыба, сетка, крючок, ловушка, приманка, приманка, удочка]

Самая большая проблема - классифицировать определенные слова как физические артефакты; WordNet по умолчанию не является надежным ресурсом, так как многие термины (такие как «ipod» и даже «trampolining») не существуют в нем.

Ответы на вопрос(1)

Ваш ответ на вопрос