¿Por qué es importante el uso responsable de los datos?
El desarrollo de tecnologías de salud basadas en inteligencia artificial (IA) depende de la calidad y representatividad de los conjuntos de datos empleados. Un modelo de IA es tan confiable como los datos que lo entrenan: si estos son incompletos, poco transparentes o sesgados, el resultado puede ser una herramienta ineficaz o incluso dañina al amplificar los riesgos de sesgos algorítmicos que pueden derivar en decisiones clínicas injustas o inequitativas.
¿Qué debe considerarse al seleccionar y evaluar conjuntos de datos?
Los conjuntos de datos utilizados deben reflejar el propósito previsto de la tecnología y la población que se beneficiará de ella, lo que implica identificar grupos de interés contextualizados —poblaciones que podrían experimentar un rendimiento desigual o daño por la tecnología, como por edad, sexo, etnia o condición socioeconómica— y garantizar la representatividad de la población de uso prevista, señalando de forma transparente cualquier grupo subrepresentado y explicando cómo se mitigarán sus efectos.
Asimismo, es necesario evaluar el rendimiento por grupo, comparando los resultados del algoritmo entre diferentes poblaciones para detectar sesgos o variaciones injustificadas; informar el uso de atributos sensibles, como raza o género, justificando su inclusión o exclusión y analizando sus implicaciones éticas; y reconocer las limitaciones de los conjuntos de datos y sus posibles efectos sobre la equidad, la precisión y la validez clínica del modelo.
¿Cómo implementar un uso responsable y transparente?
El uso responsable de datos en salud requiere procesos claros de documentación, evaluación y mitigación de riesgos. Las recomendaciones del consenso STANDING Together sugieren:
1) Proporcionar documentación suficiente y auditable, incluyendo origen, propósito, estructura y limitaciones de los conjuntos de datos.
2) Analizar el rendimiento de la tecnología en diferentes grupos, tanto los predefinidos como los descubiertos durante la validación.
3) Registrar los métodos o ajustes aplicados para mejorar la equidad entre grupos y documentar su justificación y resultados.
4) Revisar y reportar cualquier hallazgo de evaluaciones preexistentes sobre la tecnología de salud con IA y sus conjuntos de datos que pueda implicar un riesgo de daño, directo o indirecto, para los grupos de la población de uso previsto.
5) Abordar las incertidumbres y gestionar riesgos mediante planes de mitigación, monitoreo continuo y vigilancia postcomercialización.
Adoptar estas recomendaciones no solo mejora la calidad técnica de los modelos, sino que contribuye a un objetivo mayor: que la inteligencia artificial en salud beneficie a todas las personas, sin exclusiones ni sesgos.
Por Cender Quispe
Link de consenso STANDING Together: https://pmc.ncbi.nlm.nih.gov/articles/PMC11668905/

