Redução de dimensão em dados categóricos com valores ausentes

Question

May 14, 2010, 11:50 PM

Redução de dimensão em dados categóricos com valores ausentes

Eu tenho um modelo de regressão em que a variável dependente é contínua, mas noventa por cento das variáveis independentes são categóricas (ordenadas e não ordenadas) e cerca de trinta por cento dos registros têm valores ausentes (para piorar a situação, eles estão faltando aleatoriamente sem nenhum padrão, isto é, mais de quarenta e cinco por cento dos dados possuem pelo menos um valor ausente). Não existe uma teoria a priori para escolher a especificação do modelo, portanto uma das principais tarefas é a redução de dimensão antes de executar a regressão. Embora eu esteja ciente de vários métodos de redução de dimensão para variáveis contínuas, não conheço uma literatura estática semelhante para dados categóricos (exceto, talvez, como parte da análise de correspondência, que é basicamente uma variação da análise de componentes principais na tabela de frequências). Permitam-me também acrescentar que o conjunto de dados é de tamanho moderado 500000 observações com 200 variáveis. Eu tenho duas perguntas.

Existe uma boa referência estatística disponível para redução de dimensão para dados categóricos, juntamente com imputação robusta (acho que o primeiro problema é imputação e, em seguida, redução de dimensão)?Isso está vinculado à implementação do problema acima. Eu usei R extensivamente anteriormente e tento usar a função transcan e imputar fortemente para variáveis contínuas e usar uma variação do método de árvore para imputar valores categóricos. Eu tenho um conhecimento prático de Python, por isso, se algo é bom lá fora, para esse fim, então eu o usarei. Quaisquer indicadores de implementação em python ou R serão de grande ajuda. Obrigado.