Результаты поиска по запросу "data-mining"

1 ответ

Если вы начали, вы должны иметь финский, потому что есть другие, которые могут понадобиться.

1 ответ

Я думал, что принял это. Но я обнаружил, что просто нажал кнопку upvote. Прости за это.

меня естьматрица сходства пользователя и пользователя, что некоторые строки имеют повторяющиеся значения иNaN userId 316 320 359 370 910 userId 316 1.0 0.500000 0.500000 0.500000 NaN 320 0.5 1.000000 0.242837 0.019035 0.031737 359 0.5 0.242837 ...

1 ответ

Конечно, это не удаляет избыточные функции.

аюсь создать свой собственный и простой алгоритм выбора функций. Набор данных, с которым я собираюсь работать,Вот [http://www.cs.cornell.edu/people/pabo/movie-review-data/review_polarity.tar.gz] (очень известный набор данных). Может кто-нибудь ...

ТОП публикаций

1 ответ

Прежде чем использовать алгоритм, прочитайте об этом.

жный дубликат: Как определить k при использовании кластеризации k-средних? [https://stackoverflow.com/questions/1793532/how-do-i-determine-k-when-using-k-means-clustering] Как я могу выбрать K изначально, если я не знаю о данных? Может ли ...

1 ответ

Redis определенно не будет быстрее, чем нативная Java на одной машине. Это позволит вам распределить обработку, но если куски данных действительно велики, они вряд ли уместятся в памяти в любом случае. Не зная больше о том, что вы делаете, я бы посоветовал хранить данные на диске. Когда вы получаете несколько машин, вы можете смонтировать раздел по сети и обмениваться данными таким образом. Кроме того, Hadoop с MapReduce звучит как то, что вы делаете.

ает ли Redis с Java разрабатывать приложения с интенсивным использованием данных (например, интеллектуальный анализ данных) на Java? Работает ли он быстрее или потребляет меньше памяти по сравнению с простой Java для аналогичной работы с большим ...

1 ответ

FCM Кластеризация числовых данных и файла csv / excel

Привет, я задал предыдущий вопрос, который дал разумный ответ, и я подумал, что вернулся на путь,Нечеткая кластеризация дампов c-означает tcp в ...

1 ответ

ID3 и C4.5: как «коэффициент усиления» нормализует «коэффициент усиления»?

Алгоритм ID3 использует меру «информационного усиления». C4.5 использует показатель «Коэффициент усиления», который представляет собой Информационный коэффициент, деленный наSplitInfo, в то время какSplitInfo высокий для разделения, где записи ...

1 ответ

dbscan - установка предела максимального диапазона кластера

По моему пониманию DBSCAN, вы можете указать эпсилон, скажем, 100 метров и - потому что DBSCAN учитываетПлотность-достижимость а такжене прямая плотность достижимости при поиске кластеров - в конечном итоге кластер, в котором максимальное ...

1 ответ

Точная реализация RandomForest в Weka 3.7

Изучив первоначальный документ Бреймана (2001), а также некоторые другие посты совета директоров, я немного запутался в фактической процедуре, используемой в реализации случайных лесов WEKA. Ни один из источников не был достаточно сложным, многие ...

1 ответ

Как найти общие фразы в большом тексте

Сейчас я работаю над проектом, в котором мне нужно выделить самые распространенные фразы в огромном тексте. Например, скажем, у нас есть три предложения вроде следующего: Собака прыгнуланад женщиной.Собака прыгнулав машину.Собака прыгнулавверх ...