Wybór funkcji i redukcja dla klasyfikacji tekstu

Obecnie pracuję nad projektem, aprosty analizator sentymentów takie, które będą2 i 3 klasy woddzielne przypadki. Używamciało to jest ładnebogaty w sposóbunikalne słowa (około 200 000). użyłemworek słów metoda dlawybór funkcji i zmniejszyć liczbęunikalne funkcje, eliminacja odbywa się z powodu aWartość progowa zczęstotliwość występowania. Theostateczny zestaw funkcji zawiera około 20.000 funkcji, co w rzeczywistości jest90% spadek, aleniewystarczająco dla zamierzonegoprecyzja przewidywania testu. ja używamLibSVM iSVM-light z kolei za szkolenie i przewidywanie (obaliniowy iJądro RBF) i równieżPyton iGrzmotnąć ogólnie.

Thenajwyższa dokładność zaobserwowano do tej porywynosi około 75% i japotrzeba co najmniej 90%. Tak jest w przypadkuklasyfikacja binarna. Dlatrening wieloklasowy, dokładność spada~ 60%. japotrzeba co najmniej 90% w obu przypadkach i nie można obliczyć, jak go zwiększyć: viaoptymalizacja parametrów treningowych lubpoprzez optymalizację wyboru funkcji?

Przeczytałem artykuły owybór funkcji w klasyfikacji tekstu i stwierdziłem, że używane są trzy różne metody, które mają w rzeczywistości wyraźną korelację między sobą. Metody te są następujące:

Podejście częstotliwości zworek słów (ŁUK)Zysk informacyjny (IG)Statystyka X ^ 2 (CHI)

Pierwsza metoda jest już tą, której używam, ale używam jej bardzo prosto i potrzebuję wskazówek, aby lepiej ją wykorzystać, aby uzyskać wystarczająco dużą dokładność. Brakuje mi również wiedzy na temat praktycznych wdrożeńIG iCHI i szukam jakiejkolwiek pomocy, aby poprowadzić mnie w ten sposób.

Wielkie dzięki i jeśli potrzebujesz dodatkowych informacji o pomocy, daj mi znać.

@larsmans:Próg częstotliwości: Szukam przykładów unikatowych słów w przykładach, tak że jeśli słowo występuje w różnych przykładach wystarczająco często, jest ono zawarte w zestawie funkcji jako unikalna funkcja.

@TheManWithNoName: Przede wszystkim dzięki za wysiłek włożony w wyjaśnienie ogólnych obaw związanych z klasyfikacją dokumentów. Zbadałem i eksperymentowałem ze wszystkimi metodami, które przedstawiłeś i innymi. znalazłemProporcjonalna różnica Metoda (PD) najlepsza do wyboru funkcji, gdzie cechy są uni-gramami iObecność terminu (TP) dla ważenia (nie rozumiałem, dlaczego oznaczyłeś tagCzęstotliwość-częstotliwość-odwrotna-częstotliwość-dokumentu (TF-IDF) jako metoda indeksowania, uważam to raczej zaważenie funkcji podejście).Przetwarzanie wstępne jest również ważnym aspektem tego zadania, jak wspomniałeś. Użyłem pewnych rodzajów eliminacji ciągów do udoskonalenia danych, jak równieżparsowanie morfologiczne iprzybitka. Zauważ również, że pracuję nadturecki, który maróżne cechy w porównaniu do angielskiego. Wreszcie udało mi się dotrzeć~ 88% dokładności (miara f) dladwójkowy klasyfikacja i~ 84% dlawieloklasowy. Te wartości są solidnymi dowodami sukcesu zastosowanego modelu. To właśnie zrobiłem do tej pory. Teraz pracowałem nad modelowaniem klastrów i redukcjąLDA iLSI i przechodząc domoVMF I możemodele sferyczne (LDA + moVMF), który wydaje się działać lepiej w korpusie, który ma obiektywną naturę, jak korpus wiadomości. Jeśli masz jakieś informacje i wskazówki dotyczące tych kwestii, docenię to. Potrzebuję informacji, aby skonfigurować interfejs (zorientowany python, open-source) międzyredukcja wymiarów przestrzeni funkcji metody (LDA, LSI, moVMF itp.) imetody grupowania (k-średnich, hierarchicznych itp.).

questionAnswers(4)

yourAnswerToTheQuestion