Результаты поиска по запросу "data-mining"
Как бороться с отсутствующими значениями атрибутов в дереве решений C4.5 (J48)?
Каков наилучший способ обработки пропущенных значений атрибутов объектов с помощью дерева решений Weka C4.5 (J48)? Проблема пропущенных значений возникает во время обучения и классификации. Если значения отсутствуют в обучающих экземплярах, ...
Смешивание категориальных и непрерывных данных в наивном байесовском классификаторе с помощью scikit-learn
Я использую scikit-learn в Python для разработки алгоритма классификации для прогнозирования пола определенных клиентов. Среди прочего я хочу использовать наивный байесовский классификатор, но моя проблема в том, что у меня есть ...
Выбор алгоритма классификации для классификации сочетания номинальных и числовых данных?
У меня есть набор данных около 100 000 записей о структуре покупок клиентов. Набор данных содержит Возраст (непрерывное значение от 2 до 120), но я планирую также классифицировать по возрастным диапазонам.Пол (0 или 1)Адрес (может быть только ...
Как сгруппировать близлежащие местоположения широты и долготы, хранящиеся в SQL
Я пытаюсь проанализировать данные об авариях на велосипеде в Великобритании, чтобы найти статистические черные пятна. Вот пример данных с другого сайта. http://www.cycleinjury.co.uk/map [http://www.cycleinjury.co.uk/map] В настоящее время я ...
k означает алгоритм кластеризации
Я хочу выполнить кластерный анализ k средних для набора из 10 точек данных, каждый из которых имеет массив из 4 числовых значений, связанных с ними. Я использую коэффициент корреляции Пирсона в качестве метрики расстояния. Я сделал первые два ...
Как выбрать топ-100 функций (подмножество), которые наиболее актуальны после ПК?
Я выполнил PCA на матрице 63 * 2308 и получил оценку и коэффициент. Матрица оценок составляет 63 * 2308, а коэффициент - 2308 * 2308 по размерам. Как извлечь имена столбцов для 100 наиболее важных функций, чтобы я мог выполнить регрессию на них?
Нахождение 2 и 3 словосочетаний с использованием пакета R TM
Я пытаюсь найти код, который на самом деле работает, чтобы найти наиболее часто используемые фразы из двух и трех слов в пакете интеллектуального анализа текста R (возможно, есть еще один пакет, который я не знаю). Я пытался ...