Какой инструментарий НЛП использовать в JAVA? [закрыто]

Я работаю над проектом, который состоит из веб-сайта, который подключается к NCBI (Национальный центр биотехнологической информации), и ищет там статьи. Дело в том, что мне нужно провести анализ текста по всем результатам. Я использую язык JAVA для текстового майнинга и AJAX с ICEFACES для разработки веб-сайта. Что у меня есть: список статей, возвращенных из поиска. Каждая статья имеет идентификатор и реферат. Идея состоит в том, чтобы получить ключевые слова из каждого абстрактного текста. А затем сравните все ключевые слова из всех рефератов и найдите те, которые наиболее повторяются. Итак, покажите на сайте соответствующие слова для поиска. Есть идеи ? Я много искал в Интернете, и я знаю, что есть Распознавание именованных объектов, Часть речевого тегирования, есть тезаурус GENIA для NER по генам и белкам, я уже пробовал ставить в тупик ... Списки стоп-слов и т.д ... Я Просто нужно знать лучшие aproahc для решения этой проблемы. Большое спасибо.

Ответы на вопрос(4)

Ваш ответ на вопрос