Jak uczyć algorytmu uczenia maszynowego przy użyciu danych z dużą dysproporcją klas? (SVM)

Question

Aug 06, 2013, 12:49 PM

machine-learning scikit-learn supervised-learning svm

Jak uczyć algorytmu uczenia maszynowego przy użyciu danych z dużą dysproporcją klas? (SVM)

Próbuję uczyć mojego algorytmu SVM wykorzystując dane kliknięć i konwersji osób, które widzą banery. Głównym problemem jest to, że kliknięcia stanowią około 0,2% wszystkich danych, więc jest to duża dysproporcja. Kiedy używam prostego SVM w fazie testowania, zawsze przewiduje się tylko klasę „widoku” i nigdy „kliknięcia” lub „konwersji”. Średnio daje 99,8% prawidłowych odpowiedzi (z powodu dysproporcji), ale daje 0% prawidłowej prognozy, jeśli zaznaczysz „kliknij” lub „konwersja”. Jak można dostroić algorytm SVM (lub wybrać inny), aby uwzględnić dysproporcję?