No todas las cajas negras necesitan abrirse: replanteando la necesidad de explicabilidad en la IA clínica

Compartí en tu redes sociales

¿Qué es la explicabilidad de la IA?

En la era de la inteligencia artificial (IA), los modelos predictivos basados en técnicas como bosques aleatorios o redes neuronales (los llamados «modelos de caja negra») se están integrando cada vez más en la atención sanitaria. Debido a su complejidad, surge una presión creciente por «abrir» estas cajas negras usando métodos de IA explicable (XAI), como SHAP o LIME, con la esperanza de que proporcionen transparencia y generen confianza entre clínicos y pacientes.

¿Deberíamos confiar en las explicaciones de la IA en medicina?

Un análisis crítico hecho por FS van Royen y colaboradores (publicado en Journal of Clinical Epidemiology) revela que estas explicaciones pueden no ser tan útiles como se piensa en el contexto clínico. Aunque XAI muestra qué variables influyen en una predicción específica, no ofrece información sobre causalidad. Esto es crucial: los modelos predictivos identifican patrones correlacionales, no mecanismos causales. Interpretarlos como si indicaran «qué causa el riesgo» puede llevar a conclusiones erróneas, por ejemplo, pensar que modificar un predictor reducirá el riesgo, lo cual no está garantizado.

Peor aún, XAI puede generar una falsa sensación de comprensión y confianza. Cuando las explicaciones coinciden con conocimientos biológicos previos, se perciben como «válidas», aunque el modelo no tenga fundamento causal. Y si contradicen la intuición clínica, se descarta el modelo, incluso si sus predicciones son precisas. En entornos médicos, donde el razonamiento causal es “natural”, es extremadamente difícil evitar estas trampas, incluso para profesionales experimentados.

¿Qué aporta este enfoque de “no explicabilidad”?

Contrariamente a la intuición, las explicaciones XAI no ofrecen necesariamente información útil para la toma de decisiones médicas. Aunque muestran asociaciones entre predictores y resultados, no revelan relaciones causales. Por ejemplo, un modelo puede asociar el tabaquismo con menor mortalidad post-infarto (como ocurre en algunos conjuntos de datos), no porque fumar sea protector, sino por sesgos o correlaciones espurias. Interpretar esto como causal podría llevar a conclusiones peligrosas. Además, cuando las explicaciones XAI coinciden con conocimientos biológicos, generan una falsa sensación de validez; cuando no, se descarta un modelo que podría ser clínicamente útil.

¿Cómo generar confianza legítima en modelos de IA en salud?

La respuesta no está en explicar el «porqué» de cada predicción, sino en demostrar rigurosamente el «qué tan bien funciona». La confianza debe basarse en validaciones externas robustas, evaluaciones de rendimiento (discriminación, calibración, utilidad clínica) y, sobre todo, en estudios de impacto que demuestren que su uso mejora los resultados clínicos reales de los pacientes.

Al igual que aceptamos medicamentos o dispositivos médicos sin conocer al mínimo detalle su mecanismo de acción, pero confiando en ensayos clínicos y evidencia empírica. Los modelos predictivos basados en IA deben evaluarse por su eficacia comprobada, no por cuán «explicables» parecen.

La explicabilidad no equivale a utilidad clínica. En lugar de obsesionarnos por abrir la caja negra, dediquemos más esfuerzos a validar que funcione bien en el mundo real. Solo así integraremos la IA en la práctica clínica de forma segura, efectiva y responsable —con o sin explicaciones.

Por Cender Quispe

Link a artículo mencionado: https://www.sciencedirect.com/science/article/pii/S0895435625003464

 

Ir al contenido