Расчет получения информации для текстового файла?
я работаю над "категоризация текста с использованием функции получения информации, PCA и генетического алгоритма » Но после выполненияпредварительная обработка(Стеблинг, удаление стоп-слов, TFIDF) на документе, я не понимал, как двигаться дальше для получения информации.
мойиз файла содержатьслово и тамTFIDF значение.
лайкWORD - TFIDF VALUE
вместе (слово) - 0,235 (значение tfidf)
приходят (слово) - 0,2548 (значение tfidf)
при использовании weka для получения информации ("InfoGainAttributeEval.java») это требует.arff Формат файла в качестве ввода.
Есть ли для конвертациитекст подать в.arff формат. или любой другой способ получения информации, кроме weka?
Есть ли другой открытый исходный код для расчета получения информации для документа?