¿Cómo codificar una variable categórica en sklearn?

Question

Feb 22, 2013, 11:05 AM

¿Cómo codificar una variable categórica en sklearn?

Estoy tratando de usar el conjunto de datos de evaluación de automóviles del repositorio de UCI y me pregunto si hay una manera conveniente de binarizar variables categóricas en sklearn. Un enfoque sería utilizar el DictVectorizer de LabelBinarizer, pero aquí obtengo k características diferentes, mientras que debería tener solo k-1 para evitar la colinealización. Supongo que podría escribir mi propia función y eliminar una columna, pero esta contabilidad es tediosa. ¿Existe una manera fácil de realizar tales transformaciones y obtener como resultado una matriz dispersa?