Результаты поиска по запросу "data-mining"
Почему одно горячее кодирование улучшает производительность машинного обучения?
Я заметил, что когда кодирование One Hot используется в конкретном наборе данных (матрице) и используется в качестве обучающих данных для алгоритмов обучения...
как определить количество тем для LDA?
Я новичок в LDA, и я хочу использовать его в своей работе. Однако появляются некоторые проблемы. Чтобы получить наилучшую производительность, я хочу оценить лучший номер темы. После прочтения «Поиск научных тем» я знаю, что сначала могу ...
как определить количество тем для LDA?
Я новичок в LDA, и я хочу использовать его в своей работе. Однако появляются некоторые проблемы.Чтобы получить наилучшую производительность, я хочу оценить л...
Написание правил, сгенерированных Apriori
Я работаю с некоторыми большими данными транзакций. Я использую read.transactions и apriori (части пакета arules) для поиска часто встречающихся предметов. Моя проблема заключается в следующем: когда правила генерируются (с использованием ...
scikit-Learn Использование памяти DBSCAN
ОБНОВЛЕНО:В конце концов, решение, которое я решил использовать для кластеризации своего большого набора данных, было предложено Anony-Mousse ниже. То есть, используя ELSCI DBSCAN для выполнения моей кластеризации, а не scikit-learn. Его можно ...
scikit-Learn Использование памяти DBSCAN
ОБНОВЛЕНО: В конце концов, решение, которое я решил использовать для кластеризации своего большого набора данных, было предложено Anony-Mousse ниже. То есть ...
В scikit-learn, DBSCAN может использовать разреженную матрицу?
Я получил ошибку памяти, когда я запускал алгоритм dbscan от scikit. Мои данные около 20000 * 10000, это двоичная матрица. (Может быть, не подходит использовать DBSCAN с такой матрицей. Я новичок в машинном обучении. Я просто хочу найти ...
Как выбрать топ-100 функций (подмножество), которые наиболее актуальны после ПК?
Я выполнил PCA на матрице 63 * 2308 и получил оценку и коэффициент. Матрица оценок составляет 63 * 2308, а коэффициент - 2308 * 2308 по размерам. Как извлечь имена столбцов для 100 наиболее важных функций, чтобы я мог выполнить регрессию на них?