¿Cómo puedo obtener la importancia relativa de las características de una regresión logística para una predicción particular?

Estoy usando una regresión logística (en scikit) para un problema de clasificación binaria, y estoy interesado en poder explicar cada predicción individual. Para ser más precisos, estoy interesado en predecir la probabilidad de la clase positiva y tener una medida de la importancia de cada característica para esa predicción.

Usar los coeficientes (Betas) como medida de importancia es generalmente una mala ideacomo respondido aquí, pero aún no he encontrado una buena alternativa.

Hasta ahora, lo mejor que he encontrado son las siguientes 3 opciones:

Opción Monte Carlo: Arreglando todas las demás funciones, vuelva a ejecutar la predicción reemplazando la función que queremos evaluar con muestras aleatorias del conjunto de entrenamiento. Haga esto muchas veces. Esto establecería unprobabilidad de referencia para la clase positiva. Luego compara con elprobabilidad de la clase positiva de la carrera original. La diferencia es una medida de importancia de la función.Clasificadores "Leave-one-out": Para evaluar la importancia de una función, primero cree un modelo que use todas las funciones y luego otro que use todas las funciones excepto la que se está probando. Predecir la nueva observación utilizando ambos modelos. La diferencia entre los dos sería la importancia de la función.Betas ajustadas: Residencia enesta respuesta, clasificando la importancia de las características por'la magnitud de su coeficiente multiplicado por la desviación estándar del parámetro correspondiente en los datos'.

Todas las opciones (usando betas, Monte Carlo y "Leave-one-out") me parecen malas soluciones.

El Monte Carlo depende de la distribución del conjunto de entrenamiento, y no puedo encontrar ninguna literatura que lo respalde.El "dejar uno afuera" sería fácilmente engañado por dos características correlacionadas (cuando una estaba ausente, la otra intervendría para compensar, y ambas recibirían 0 importancia).Las betas ajustadas suenan plausibles, pero no puedo encontrar ninguna literatura que lo respalde.

Pregunta real: ¿Cuál es la mejor manera de interpretar la importancia de cada característica, en el momento de una decisión, con un clasificador lineal?

Nota rápida # 1: para bosques aleatorios esto es trivial, simplemente podemos usar elprediction + bias descomposición, como se explica bellamente enesta publicación de blog. El problema aquí es cómo hacer algo similar con clasificadores lineales como la regresión logística.

Nota rápida # 2: hay varias preguntas relacionadas sobre stackoverflow (1 2 3 4 5) No he podido encontrar una respuesta a esta pregunta específica.

Respuestas a la pregunta(2)

Su respuesta a la pregunta