Идея с n-граммами состоит в том, что вы можете увидеть обычные слова, которые рядом с "теннис". Тот факт, что они появляются рядом друг с другом, показывает, что, вероятно, существует определенная связь.
аюсь найти слова (в частности, физические объекты), связанные с одним словом. Например:
Теннис: теннисная ракетка, теннисный мяч, теннисная обувь
снукер: снукерный кий, снукерный шар, мел
шахматы: шахматная доска, шахматная фигура
этажерка: книга
Я пытался использовать WordNet, в частности, семантические отношения meronym; Однако этот метод не является последовательным, как показывают результаты ниже:
Теннис: подача, залп, неисправность, заданное значение, возврат, преимущество
снукер: ничего
шахматы: шахматный ход, шахматная доска (чьи собственные соотношения meronym показывают «квадрат» и «диагональ»)
этажерка: полка
В конечном итоге потребуется взвешивание сроков, но сейчас это не является проблемой.
У кого-нибудь есть предложения, как это сделать?
Просто обновление: закончилось с использованием смеси ответов Джеффа и StompChicken.
Качество информации, полученной из Википедии, превосходно, особенно потому, что (что неудивительно) так много актуальной информации (по сравнению с некоторыми корпорациями, где такие термины, как «блог» и «iPod» не существуют).
Диапазон результатов из Википедии - лучшая часть. Программное обеспечение может соответствовать таким терминам, как (списки сокращены для краткости):
гольф: [мяч, железо, футболка, сумка, клуб]фотография: [камера, фильм, фотография, искусство, изображение]рыбалка: [рыба, сетка, крючок, ловушка, приманка, приманка, удочка]Самая большая проблема - классифицировать определенные слова как физические артефакты; WordNet по умолчанию не является надежным ресурсом, так как многие термины (такие как «ipod» и даже «trampolining») не существуют в нем.