Расчет получения информации для текстового файла?

я работаю над "категоризация текста с использованием функции получения информации, PCA и генетического алгоритма » Но после выполненияпредварительная обработка(Стеблинг, удаление стоп-слов, TFIDF) на документе, я не понимал, как двигаться дальше для получения информации.

мойиз файла содержатьслово и тамTFIDF значение.

лайкWORD - TFIDF VALUE

вместе (слово) - 0,235 (значение tfidf)

приходят (слово) - 0,2548 (значение tfidf)

при использовании weka для получения информации ("InfoGainAttributeEval.java») это требует.arff Формат файла в качестве ввода.

Есть ли для конвертациитекст подать в.arff формат. или любой другой способ получения информации, кроме weka?

Есть ли другой открытый исходный код для расчета получения информации для документа?

Ответы на вопрос(1)

Ваш ответ на вопрос