функция стоимости в cv.glm загрузочной библиотеки в R
Я пытаюсь использовать функцию перекрестной проверки cv.glm из загрузочной библиотеки в R, чтобы определить количество ошибочных классификаций при применении логистической регрессии glm.
Функция имеет следующую подпись:
cv.glm(data, glmfit, cost, K)
причем первые два обозначают данные и модель, а K задает k-кратное значение. Моя проблема заключается в параметре стоимости, который определяется как:
стоимость: функция двух векторных аргументов, определяющая функцию стоимости для перекрестной проверки. Первый аргумент стоимости должен соответствовать наблюдаемым ответам, а второй аргумент должен соответствовать предсказанным или подобранным ответам из обобщенной линейной модели. стоимость должна возвращать неотрицательное скалярное значение. По умолчанию используется функция среднего квадрата ошибки.
Я предполагаю, что для классификации было бы целесообразно иметь функцию, которая возвращает скорость ошибочной классификации, например:
nrow(subset(data, (predict >= 0.5 & data$response == "no") |
(predict < 0.5 & data$response == "yes")))
что, конечно, даже не синтаксически правильно.
К сожалению, мои ограниченные знания R позволили мне тратить часы, и мне было интересно, может ли кто-нибудь указать мне правильное направление.