Выбор и сокращение возможностей для классификации текста

В настоящее время я работаю над проектом,простой анализатор настроений такой что будет2 и 3 класс вотдельные случаи, Я используютело это довольнобогатые в средствахуникальные слова (около 200.000). я использовалмешок из-слов метод длявыбор функции и уменьшить количествоуникальные чертыустранение происходит из-запороговое значение изчастота встречаемости,финальный набор функций включает в себя около 20 000 функций, которые на самом делеСнижение на 90%, нонедостаточно для предназначенныхточность тест-прогнозирование. я используюLibSVM а такжеSVM-свет в свою очередь для обучения и прогнозирования (обалинейный а такжеЯдро RBF) а такжепитон а такжеудар в общем.

высочайшая точность наблюдалось до сих порсоставляет около 75% и янужно минимум 90%, Это случай длябинарная классификация, Замультиклассовое обучениеточность падает до~ 60%, янужно минимум 90% в обоих случаях и не могу понять, как его увеличить: черезоптимизация параметров тренировки или жечерез оптимизацию выбора функций?

Я прочитал статьи овыбор функции в классификации текста и что я обнаружил, что используются три различных метода, которые на самом деле имеют четкую корреляцию между собой. Эти методы следующие:

Частотный подходмешок из-слов (ЛУК)Получение информации (IG)X ^ 2 Статистика (Х)

Первый метод уже тот, который я использую, но я использую его очень просто, и мне нужно руководство, чтобы лучше его использовать, чтобы получить достаточно высокую точность. Мне также не хватает знаний о практической реализацииИ.Г. а такжеCHI и ищет любую помощь, чтобы вести меня таким образом.

Большое спасибо, и если вам нужна дополнительная информация для помощи, просто дайте мне знать.

@larsmans:Порог частотыЯ ищу вхождения уникальных слов в примерах, так что если слово встречается в разных примерах достаточно часто, оно включается в набор функций как уникальная функция.

@TheManWithNoName: Прежде всего, спасибо за ваши усилия в объяснении общих проблем классификации документов. Я исследовал и экспериментировал со всеми методами, которые вы предлагаете, и другими. я нашелПропорциональная разница (PD) метод лучше всего подходит для выбора функций, где функции являются униграммами иСрок Присутствия (TP) для взвешивания (я нене понимаю, почему вы отметилиTerm-Frequency-Inverse-документ-Frequency (TF-IDF) в качестве метода индексации, я скорее рассматриваю его какфункция взвешивания подход).Предварительная обработка также важный аспект для этой задачи, как вы упомянули. Я использовал определенные типы исключения строк для уточнения данных, а такжеморфологический анализ а такжевытекающие, Также обратите внимание, что я работаю надтурецкий, у которого естьразные характеристики по сравнению с английским. Наконец мне удалось добратьсяТочность ~ 88% (f-мера) длядвоичный классификация и~ 84% замульти-класс, Эти значения являются твердым доказательством успеха модели, которую я использовал. Это то, что я сделал до сих пор. Сейчас работаю над моделями кластеризации и редукции, попробовалLDA а такжеБИС и перейти кmoVMF и возможносферические модели (LDA + moVMF), который, кажется, лучше работает на корпусе, который имеет объективный характер, например, на корпусе новостей. Если у вас есть какая-либо информация и рекомендации по этим вопросам, я буду признателен. Мне нужна информация, особенно для настройки интерфейса (ориентированного на Python, с открытым исходным кодом) междууменьшение размеров пространств объектов методы (LDA, LSI, moVMF и т. д.) иметоды кластеризации (к-значит, иерархический и т. д.).

Ответы на вопрос(4)

Ваш ответ на вопрос