Используете тот же самый Label Encoder для тестирования набора данных? или новый кодировщик этикеток?
Я новичок в изучении scikit-learn.
Я хочу знать, должен ли я использовать тот же экземпляр Label Encoder, который использовался в наборе обучающих данных, или нет, когда я хочу преобразовать категориальные данные той же функции в тестовом наборе данных. И это означает, как показано ниже
from sklearn import preprocessing
# trainig data label encoding
le_blood_type = preprocessing.LabelEncoder()
df_training[ 'BLOOD_TYPE' ] = le_blood_type.fit_transform( df_training[ 'BLOOD_TYPE' ] ) # labeling from string
....
1. Using same label encoder
df_test[ 'BLOOD_TYPE' ] = le_blood_type.fit_transform( df_test[ 'BLOOD_TYPE' ] )
2. Using different label encoder
le_for_test_blood_type = preprocessing.LabelEncoder()
df_test[ 'BLOOD_TYPE' ] = le_for_test_blood_type.fit_transform( df_test[ 'BLOOD_TYPE' ] )
Какой код правильный? Или, какой бы я ни выбрал код выше, это не имеет никакого значения, потому что в результате категориальные данные обучающего набора данных и категориальные данные тестового набора должны быть одинаковыми.