кластеризация со значениями NA в R
Я был удивлен, узнав, чтоclara
отlibrary(cluster)
позволяет НС. Но документация по функциям ничего не говорит о том, как она обрабатывает эти значения.
Итак, мои вопросы:
Howclara
handles NAs?
Can this be somehow used for kmeans
(Nas not allowed)?
[Update] Так что я нашел строки кода вclara
функция:
inax <- is.na(x)
valmisdat <- 1.1 * max(abs(range(x, na.rm = TRUE)))
x[inax] <- valmisdat
которые делают замену недостающего значенияvalmisdat
, Не уверен, что понимаю причину использования такой формулы. Есть идеи? Будет ли это более «естественным» рассматривать НС по каждому столбцу отдельно, возможно, заменяя среднее / медиану?