Reducción de dimensiones en datos categóricos con valores faltantes

Question

May 14, 2010, 11:50 PM

Reducción de dimensiones en datos categóricos con valores faltantes

Tengo un modelo de regresión en el que la variable dependiente es continua, pero el noventa por ciento de las variables independientes son categóricas (ordenadas y no ordenadas) y alrededor del treinta por ciento de los registros tienen valores faltantes (para empeorar las cosas, faltan al azar sin ningún patrón, es decir, más del cuarenta y cinco por ciento de los datos tienen al menos un valor faltante). No existe una teoría a priori para elegir la especificación del modelo, por lo que una de las tareas clave es la reducción de dimensiones antes de ejecutar la regresión. Si bien conozco varios métodos para la reducción de dimensiones para variables continuas, no conozco una literatura estadística similar para datos categóricos (excepto, tal vez, como parte del análisis de correspondencia que es básicamente una variación del análisis de componentes principales en la tabla de frecuencias). Permítanme agregar también que el conjunto de datos es de tamaño moderado 500000 observaciones con 200 variables. Tengo dos preguntas.

¿Existe una buena referencia estadística para la reducción de dimensiones para datos categóricos junto con una imputación sólida (creo que el primer problema es la imputación y luego la reducción de dimensiones)?Esto está relacionado con la implementación del problema anterior. He usado R ampliamente anteriormente y tiendo a usar mucho la función de transcanar e imputar para variables continuas y usar una variación del método de árbol para imputar valores categóricos. Tengo un conocimiento práctico de Python, así que si hay algo bueno para este propósito, lo usaré. Cualquier puntero de implementación en python o R será de gran ayuda. Gracias.