Zastosuj PCA na bardzo dużej macierzy rzadkiej

Robię zadanie klasyfikacji tekstu z R i otrzymuję matrycę z terminem dokumentu o rozmiarze 22490 na 120 000 (tylko 4 miliony niezerowych wpisów, mniej niż 1% wpisów). Teraz chcę zmniejszyć wymiar poprzez wykorzystanie PCA (Principal Component Analysis). Niestety, R nie radzi sobie z tą ogromną matrycą, więc przechowuję tę rzadką matrycę w pliku w „Matrix Market Format”, mając nadzieję na wykorzystanie innych technik do PCA.

Czy więc ktoś mógłby mi dać kilka wskazówek dotyczących przydatnych bibliotek (niezależnie od języka programowania), które mogłyby z łatwością wykonywać PCA za pomocą tej wielkoskalowej macierzy, czy też samodzielnie wykonywać PCA, innymi słowy,oblicz najpierw macierz kowariancji, a następnie oblicz wartości własne i wektory własne dla macierzy kowariancji.

Chcę to zrobićoblicz wszystkie komputery (120 000) i wybierz tylko najlepsze N ​​komputerów, które odpowiadają za 90% wariancji. Oczywiście w tym przypadku muszę podać próg a priori, aby ustawić bardzo małe wartości wariancji na 0 (w macierzy kowariancji), w przeciwnym razie macierz kowariancji nie będzie rzadka, a jej rozmiar wyniesie 120 000 na 120 000, czyli niemożliwe do obsłużenia za pomocą jednej maszyny. Również ładunki (wektory własne) będą bardzo duże i powinny być przechowywane w rzadkim formacie.

Bardzo dziękuję za pomoc!

Uwaga: Używam maszyny z 24 GB pamięci RAM i 8 rdzeni procesora.

questionAnswers(4)

yourAnswerToTheQuestion