Informationsgewinnberechnung für eine Textdatei?

Ich arbeite anTextkategorisierung unter Verwendung von Informationsgewinn, PCA und genetischem Algorithmus Aber nach dem AuftrittVorverarbeitung(Stemming, Stopword Removal, TFIDF) auf dem Dokument m verwirrt, wie man voranschreitet, um Informationen zu gewinnen.

meineout file enthaltenWort und daTFIDF Wert.

mögenWORT - TFIDF-WERT

zusammen (Wort) - 0,235 (tfidf-Wert)

come (word) - 0.2548 (tfidf value)

wenn weka für Informationsgewinn verwendet wird ("InfoGainAttributeEval.java") es erfordern.arff Dateiformat als Eingabe.

Gibt es welche zu konvertierenText Datei in.arff Format. oder eine andere Möglichkeit, Informationsgewinn anders als weka vorzubereiten?

Gibt es eine andere Open Source für die Berechnung des Informationsgewinns für ein Dokument?

Antworten auf die Frage(1)

Ihre Antwort auf die Frage