Подмножество R randomForest не может избавиться от уровней факторов [дубликата]
Возможный дубликат:
понижающие уровни факторов в кадре с заданными данными в RI '
Я пытаюсь использовать randomForest для прогнозирования продаж. У меня есть 3 переменные, одна из которых является фактор-переменной для storeId. Я знаю, что в тестовом наборе есть уровни, которых нет в тренировочном наборе. Я'я пытаюсь получить прогноз только для уровней, присутствующих в тренировочном наборе, но могучтобы он смотрел мимо новых уровней факторов.
Вот'что ямы уже пробовали:
require(randomForest)
train test
storeId dat1 dat2
1 2 0.7513645 3.442052
2 3 0.2862487 3.196189
3 4 0.4971865 6.074281
4 5 0.8631945 8.766129
5 6 0.3848105 5.001426
6 7 0.9032262 7.018274
7 8 0.1560501 4.523618
8 9 0.3461597 5.551672
9 10 0.1318464 3.092640
10 11 0.6587270 1.348623
> RF1 pred test2 pred levels(test2$storeId)
[1] "2" "3" "4" "5" "6" "7" "8" "9" "10" "11"
И "11" уровень все еще там.
Далее я попробую это:
> test2$storeId test2$storeId pred levels(test2$storeId)
[1] "2" "3" "4" "5" "6" "7" "8" "9" "10"
Любые предложения о том, чтобы это можно было предсказать только в магазинах без11" уровень?
РЕДАКТИРОВАТЬ:
> test2$storeId pred
> test2$storeId pred str(train)
'data.frame': 10 obs. of 4 variables:
$ sales : num 800 679 589 812 384 ...
$ storeId: Factor w/ 10 levels "1","2","3","4",..: 1 2 3 4 5 6 7 8 9 10
$ dat1 : num 0.5148 0.5567 0.9871 0.0071 0.736 ...
$ dat2 : num 8.501 2.994 2.948 0.519 1.746 ...
> str(test)
'data.frame': 10 obs. of 3 variables:
$ storeId: Factor w/ 10 levels "2","3","4","5",..: 1 2 3 4 5 6 7 8 9 10
$ dat1 : num 0.0975 0.7435 0.7055 0.2085 0.2944 ...
$ dat2 : num 5.96 6.84 3.96 8.93 8.62 ...
> str(test2)
'data.frame': 9 obs. of 3 variables:
$ storeId: Factor w/ 9 levels "2","3","4","5",..: 1 2 3 4 5 6 7 8 9
$ dat1 : num 0.0975 0.7435 0.7055 0.2085 0.2944 ...
$ dat2 : num 5.96 6.84 3.96 8.93 8.62 ...