Результаты поиска по запросу "data-mining"
Я думал, что принял это. Но я обнаружил, что просто нажал кнопку upvote. Прости за это.
меня естьматрица сходства пользователя и пользователя, что некоторые строки имеют повторяющиеся значения иNaN userId 316 320 359 370 910 userId 316 1.0 0.500000 0.500000 0.500000 NaN 320 0.5 1.000000 0.242837 0.019035 0.031737 359 0.5 0.242837 ...
Конечно, это не удаляет избыточные функции.
аюсь создать свой собственный и простой алгоритм выбора функций. Набор данных, с которым я собираюсь работать,Вот [http://www.cs.cornell.edu/people/pabo/movie-review-data/review_polarity.tar.gz] (очень известный набор данных). Может кто-нибудь ...
Прежде чем использовать алгоритм, прочитайте об этом.
жный дубликат: Как определить k при использовании кластеризации k-средних? [https://stackoverflow.com/questions/1793532/how-do-i-determine-k-when-using-k-means-clustering] Как я могу выбрать K изначально, если я не знаю о данных? Может ли ...
Redis определенно не будет быстрее, чем нативная Java на одной машине. Это позволит вам распределить обработку, но если куски данных действительно велики, они вряд ли уместятся в памяти в любом случае. Не зная больше о том, что вы делаете, я бы посоветовал хранить данные на диске. Когда вы получаете несколько машин, вы можете смонтировать раздел по сети и обмениваться данными таким образом. Кроме того, Hadoop с MapReduce звучит как то, что вы делаете.
ает ли Redis с Java разрабатывать приложения с интенсивным использованием данных (например, интеллектуальный анализ данных) на Java? Работает ли он быстрее или потребляет меньше памяти по сравнению с простой Java для аналогичной работы с большим ...
FCM Кластеризация числовых данных и файла csv / excel
Привет, я задал предыдущий вопрос, который дал разумный ответ, и я подумал, что вернулся на путь,Нечеткая кластеризация дампов c-означает tcp в ...
ID3 и C4.5: как «коэффициент усиления» нормализует «коэффициент усиления»?
Алгоритм ID3 использует меру «информационного усиления». C4.5 использует показатель «Коэффициент усиления», который представляет собой Информационный коэффициент, деленный наSplitInfo, в то время какSplitInfo высокий для разделения, где записи ...
dbscan - установка предела максимального диапазона кластера
По моему пониманию DBSCAN, вы можете указать эпсилон, скажем, 100 метров и - потому что DBSCAN учитываетПлотность-достижимость а такжене прямая плотность достижимости при поиске кластеров - в конечном итоге кластер, в котором максимальное ...
Точная реализация RandomForest в Weka 3.7
Изучив первоначальный документ Бреймана (2001), а также некоторые другие посты совета директоров, я немного запутался в фактической процедуре, используемой в реализации случайных лесов WEKA. Ни один из источников не был достаточно сложным, многие ...
Как найти общие фразы в большом тексте
Сейчас я работаю над проектом, в котором мне нужно выделить самые распространенные фразы в огромном тексте. Например, скажем, у нас есть три предложения вроде следующего: Собака прыгнуланад женщиной.Собака прыгнулав машину.Собака прыгнулавверх ...