Используете тот же самый Label Encoder для тестирования набора данных? или новый кодировщик этикеток?

Question

Jun 30, 2015, 10:25 AM

Используете тот же самый Label Encoder для тестирования набора данных? или новый кодировщик этикеток?

Я новичок в изучении scikit-learn.

Я хочу знать, должен ли я использовать тот же экземпляр Label Encoder, который использовался в наборе обучающих данных, или нет, когда я хочу преобразовать категориальные данные той же функции в тестовом наборе данных. И это означает, как показано ниже

from sklearn import preprocessing

# trainig data label encoding
le_blood_type = preprocessing.LabelEncoder()
df_training[ 'BLOOD_TYPE' ] = le_blood_type.fit_transform( df_training[ 'BLOOD_TYPE' ] )    # labeling from string
....
1. Using same label encoder
   df_test[ 'BLOOD_TYPE' ] = le_blood_type.fit_transform( df_test[ 'BLOOD_TYPE' ] )

2. Using different label encoder
   le_for_test_blood_type = preprocessing.LabelEncoder()
   df_test[ 'BLOOD_TYPE' ] = le_for_test_blood_type.fit_transform( df_test[ 'BLOOD_TYPE' ] )

Какой код правильный? Или, какой бы я ни выбрал код выше, это не имеет никакого значения, потому что в результате категориальные данные обучающего набора данных и категориальные данные тестового набора должны быть одинаковыми.

Используете тот же самый Label Encoder для тестирования набора данных? или новый кодировщик этикеток?

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Используете тот же самый Label Encoder для тестирования набора данных? или новый кодировщик этикеток?

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы