классификация текста с помощью SciKit-learn и большого набора данных

Прежде всего, я начал с питона вчера. Я'я пытаюсь сделать классификацию текста с помощью SciKit и большого набора данных (250 000 твитов). Для этого алгоритма каждый твит будет представлен в виде вектора 4000 x 1, поэтому это означает, что входное значение составляет 250 000 строк и 4000 столбцов. Когда я пытаюсь построить это в python, у меня заканчивается 8500 твитов (при работе со списком и добавлении его), и когда я предварительно выделяю память, я просто получаю сообщение об ошибке:MemoryError (np.zeros (4000,2500000)). Разве SciKit не может работать с этими большими наборами данных? Я что-то не так делаю (так как это мой второй день с питоном)? Есть ли другой способ представления функций, чтобы он мог уместиться в моей памяти?

редактировать: Я хочу, чтобы Бернулли NB

edit2: Возможно это возможно с онлайн обучением? прочитайте твит, позвольте модели использовать твит, удалите его из памяти, прочитайте другой, позвольте модели учиться ... но я неЯ думаю, что Бернулли Н.Б. позволяет учиться в режиме онлайн по программе scikit-learn.

Ответы на вопрос(2)

Ваш ответ на вопрос