Как я могу найти только «интересные» слова из корпуса?

Я разбираю предложения. Я хочу знать соответствующее содержание каждого предложения, свободно определяемого как «полууникальные слова» по отношению к остальной части корпуса. Нечто похожее на «статистически невероятные фразы» Amazon, которые, кажется, (часто) передают характер книги через странные строки слов.

Моим первым проходом было начать составление списка общих слов. Это выбивает легкие, такие какa, the, fromи т. д. Очевидно, получается, что этот список становится довольно длинным.

Одна из идей состоит в том, чтобы создать этот список: составьте гистограмму частот слова в корпусе и отрежьте верхние 10% или что-то подобное (IEthe происходит 700 раз,from 600 раз, ноmicropayments только 50, что находится под отсечкой и поэтому актуально).

Еще один алгоритм, о котором я только что узнал из Hacker News сегодня, этоTf IDFПохоже, это может быть полезным.

Какие другие подходы будут работать лучше, чем мои две идеи?

Ответы на вопрос(4)

Ваш ответ на вопрос