R, ilości pamięci RAM i określone ograniczenia, aby uniknąć błędów pamięci

Czytałem o różnych pakietach dużych zbiorów danych z R. Wiele z nich wydaje się wykonalnych, z wyjątkiem tego, że przynajmniej tak, jak rozumiem ten problem, wiele pakietów, które lubię używać dla typowych modeli, nie byłoby dostępnych w połączeniu z zalecanymi pakietami dużych zbiorów danych (dla na przykład używam lme4, VGAM i innych dość powszechnych odmian pakietów do analizy regresji, które nie wydają się dobrze bawić z różnymi pakietami danych dużych, takich jak ff itp.).

Niedawno próbowałem użyć VGAM do wykonania modeli wielomianowych przy użyciu danych z Ogólnego badania społecznego. Kiedy rzuciłem kilka modeli do uruchomienia, które odpowiadały za grupowanie respondentów w latach, jak również listę innych elementów sterujących, które zacząłem uderzać w całość, "nie mogę przydzielić wektora rozmiaru yadda yadda ..." Próbowałem różnych zalecanych elementów, takich jak jako wyczyszczenie pamięci i użycie macierzy tam, gdzie to możliwe, bez dobrego efektu. Jestem skłonny zwiększyć ilość pamięci RAM na moim komputerze (właściwie po prostu kupić nową maszynę z większą ilością pamięci RAM), ale chcę mieć dobry pomysł, czy to rozwiąże moje problemy, zanim wypuszczę 1500 dolarów na nową maszynę, zwłaszcza że jest to dla mojego osobistego użytku i będzie finansowane wyłącznie przeze mnie na mój budżet studenta.

Obecnie używam komputera z systemem Windows 8 z 16 GB pamięci RAM, R 3.0.2, a wszystkie używane przeze mnie pakiety zostały zaktualizowane do najnowszych wersji. Zestawy danych zazwyczaj pracuję z maksymalną liczbą poniżej 100 000 indywidualnych przypadków / respondentów. Jeśli chodzi o analizy, mogę potrzebować macierzy i / lub ramek danych, które mają wiele wierszy, jeśli na przykład używam 15 zmiennych z interakcjami między czynnikami, które mają kilka poziomów lub jeśli muszę mieć wiele wierszy w macierzy dla każdego z moich 100 000 przypadki oparte na kształtowaniu do rzędu dla każdej kategorii niektórych DV na każdego respondenta. To może być duży dotyk dla niektórych prac z zakresu nauk społecznych, ale czuję, że w wielkim schemacie rzeczy moje wymagania nie są aż tak ogromne, jak to się dzieje w przypadku analizy danych. Jestem pewien, że wielu użytkowników R analizuje znacznie większe dane.

Sądzę więc, że moje pytanie jest takie - biorąc pod uwagę rozmiar danych i typy analiz, z którymi zazwyczaj pracuję, jaka byłaby wygodna ilość pamięci RAM, aby uniknąć błędów pamięci i / lub konieczności użycia specjalnych pakietów do obsługi rozmiaru dane / procesy, których używam? Na przykład przyglądam się maszynie, która ma 32 GB pamięci RAM. Czy to się skończy? Czy powinienem wybrać 64 GB pamięci RAM? A może naprawdę muszę ugryźć pocisk, żeby tak rzec, i zacząć uczyć się używać R z pakietami dużych danych, a może po prostu znaleźć inny pakiet statystyk lub nauczyć się bardziej intensywnego języka programowania (nie wiem nawet, co to będzie, Python, C ++ ??). Ta druga opcja byłaby oczywiście dobra na dłuższą metę, ale w tej chwili byłaby raczej wygórowana. Jestem w trakcie realizacji kilku projektów, w których uderzam w podobne problemy i nie mam czasu na budowanie nowych umiejętności językowych w terminach.

Aby być tak konkretnym, jak to możliwe - Jaka jest maksymalna wydajność 64-bitowego R na dobrej maszynie z 16 GB, 32 GB i 64 GB pamięci RAM? Szukałem w pobliżu i nie znalazłem jednoznacznych odpowiedzi, których mógłbym użyć do oceny moich osobistych potrzeb w tym czasie.

questionAnswers(1)

yourAnswerToTheQuestion