Contenido de este artículo
Desarrollo de la guía
El desarrollo de esta guía no fue un esfuerzo aislado, sino el resultado de un proceso colaborativo que involucró a múltiples equipos de investigación del CLIAS (Centro de Inteligencia Artificial y Salud para América Latina y el Caribe) y a expertos externos en inteligencia artificial. Desde el inicio, reconocimos la importancia de abordar los desafíos comunes en la creación de conjuntos de datos para machine learning, especialmente en el contexto latinoamericano, donde la disponibilidad de datasets de alta calidad es una preocupación creciente.
Para mejorar la transparencia y reproducibilidad de estos procesos, decidimos cocrear la guía junto con los equipos de investigación, aplicando una metodología basada en Design Thinking. Este enfoque nos permitió no solo comprender las dificultades que enfrentaban los equipos, sino también desarrollar soluciones concretas desde una perspectiva centrada en el usuario y colaborativa. La metodología Design Thinking se implementó en varias fases, comenzando con la realización de dos talleres clave.
Primera fase: empatizar y definir
La primera fase del proceso fue crucial para entender los problemas específicos que los equipos de investigación enfrentaban al construir conjuntos de datos de calidad. El primer taller tuvo el objetivo principal de empatizar con los equipos y profundizar en sus procesos, etapas y pasos necesarios para la creación de datasets efectivos. Durante este taller, se trabajó en la definición de un proceso de referencia, es decir, un diagrama que delineaba los pasos típicos en la construcción de un conjunto de datos de alta calidad. Este diagrama permitió comprender las definiciones de éxito en cada etapa y establecer una base común para identificar áreas de mejora.
Segunda fase: idear
Con una comprensión clara de las etapas y definiciones de éxito identificadas en el primer taller, se avanzó a la segunda fase, convocando un segundo taller destinado a profundizar en los problemas que surgen en cada uno de los pasos del proceso de referencia. En esta etapa, se definieron los problemas detectados, focalizando en priorizando los más relevantes y detectando los cuellos de botella del proceso. Luego, el foco viró hacia definirdetectar la causa raíz de los problemas identificados, buscando posibles soluciones y priorizándolas en función de su factibilidad, capacidad de implementación y aceptabilidad. Este enfoque estructurado permitió generar ideas innovadoras y prácticas para superar los desafíos existentes.
Desarrollo de soluciones concretas
Una de las soluciones más destacadas que surgió durante este taller fue la creación de una guía de buenas prácticas para el desarrollo de datasets anotados. Esta guía proporcionaría a los equipos que se embarquen en el desarrollo de un conjunto de datos para entrenamiento de un modelo, un marco claro para tomar decisiones durante el proceso de diseño, recolección y anotación de datos, asegurando así la calidad y los aspecto éticos necesarios para la creación de conjuntos de datos que permitan el desarrollo de modelos de machine learning de de alta calidad.
Fases del proceso de creación de conjuntos de datos en salud orientados al desarrollo de modelos de aprendizaje automático supervisado
La construcción de conjuntos de datos en salud para el desarrollo de modelos de aprendizaje automático supervisado es un proceso complejo que requiere un enfoque estructurado y meticuloso. La calidad, representatividad y anotación adecuada de los datos son factores determinantes para garantizar la validez y aplicabilidad de los modelos en entornos clínicos reales.
Para abordar este desafío, esta guía propone un enfoque por fases, en el que cada etapa del proceso de construcción del conjunto de datos se define con objetivos, estrategias y mejores prácticas específicas, con un foco especial en mantener la alineación entre los objetivos del proyecto, el modelo de ML a desarrollar y las fuentes de datos disponibles.
Cada fase de la guía responde a preguntas clave que surgen a lo largo del ciclo de vida del conjunto de datos, tales como:
- ¿Cuál es el problema que se busca resolver y cómo se traduce en requisitos para el dataset?
- ¿Qué fuentes de datos son las más adecuadas y cómo evaluar su pertinencia?
- ¿Cómo se garantiza que la anotación de datos sea precisa y consistente?
- ¿Qué métricas y estrategias pueden implementarse para monitorear la calidad del dataset?
- ¿Cómo se documenta y almacena el conjunto de datos para garantizar su reutilización y seguridad?

Deja una respuesta