Obliczanie wzmocnienia informacji dla pliku tekstowego?

pracuję nad„kategoryzacja tekstu z wykorzystaniem wzmocnienia informacji, PCA i algorytmu genetycznego” Ale po występiePrzetwarzanie wstępne(Stemming, stopword removal, TFIDF) na dokumencie mylono, jak iść naprzód w celu uzyskania informacji.

mójplik zawieraćsłowo i tamTFIDF wartość.

lubićWORD - TFIDF VALUE

razem (słowo) - 0,235 (wartość tfidf)

przyjdź (słowo) - 0,2548 (wartość tfidf)

kiedy używamy weka do zdobywania informacji ("InfoGainAttributeEval.java„) wymaga.arff format pliku jako wejście.

Czy jest coś do konwersjitekst plik do.arff format. lub jakikolwiek inny sposób na uzyskanie korzyści informacyjnych innych niż weka?

Czy istnieje inne otwarte źródło do obliczania przyrostu informacji dla dokumentu?

questionAnswers(1)

yourAnswerToTheQuestion