Fase 0: ¿Qué tener en claro antes de desarrollar el conjunto de datos? Definición del problema y objetivos
Antes de iniciar el desarrollo de un dataset para el desarrollo de modelos de aprendizaje automático supervisado en el ámbito de la salud, es crucial establecer una base sólida que guíe todo el proceso. Esta fase inicial, denominada Fase 0, se centra en clarificar el problema que se desea resolver, entender cómo el dataset encaja en la solución general y definir claramente los objetivos del proyecto. A continuación, se detallan los aspectos fundamentales a considerar:
Clarificar el problema y la solución:
Detallar el problema que queremos resolver
Es fundamental definir con precisión el problema clínico o de salud que se busca abordar, comprendiendo su naturaleza, relevancia y consecuencias. Este problema puede comprometer distintas dimensiones del sistema sanitario, como el acceso a los servicios, la oportunidad del diagnóstico, el seguimiento de pacientes o la eficiencia en la gestión de recursos. Identificar con claridad cuál de estos aspectos está afectado y cómo se manifiesta en el contexto específico del proyecto es clave para orientar adecuadamente el desarrollo de una solución. Para ello, se requiere una delimitación explícita de la población objetivo, el nivel del sistema de salud implicado (primaria, hospitalaria, comunitaria, etc.) y las condiciones institucionales y territoriales en las que el problema ocurre.
Para justificar la importancia del problema, es necesario respaldarlo con evidencia local o regional, tanto cuantitativa como cualitativa. Esta puede incluir datos epidemiológicos, registros institucionales, información poblacional o estudios previos que reflejen su frecuencia, gravedad e impacto.
Detallar la solución que se planea desarrollar e implementar
- Descripción general de la solución
La solución debe ser presentada de forma clara, especificando qué se propone construir (por ejemplo, una herramienta de apoyo al diagnóstico, un sistema de priorización de pacientes o un modelo predictivo) y cómo se espera que funcione dentro del proceso de atención o gestión en salud. Es importante explicar de qué manera la solución se inserta en los flujos existentes, qué valor agrega (mayor precisión, eficiencia, equidad, etc.) y cuáles son sus principales componentes técnicos y operativos. Además, se recomienda describir brevemente los medios de adquisición de datos, los sistemas de información con los que se articulará y el alcance esperado del producto.
- Justificación del uso de Machine Learning
El uso de técnicas de Machine Learning (ML) se justifica cuando el problema a resolver presenta una complejidad que excede las capacidades de los métodos tradicionales, como ocurre en situaciones donde intervienen múltiples variables, patrones no lineales o grandes volúmenes de datos. Además, debe existir disponibilidad de datos con calidad y representatividad suficientes para entrenar modelos robustos. El ML aporta valor agregado en términos de personalización, escalabilidad y capacidad de detección de patrones complejos. Es importante anticipar con que tipo de datos se trabajará, y si será necesario un proceso previo de estandarización o limpieza de los datos.
- Análisis de alternativas
Antes de optar por una solución basada en ML, conviene considerar otras alternativas posibles ya sean tecnológicas o no, y compararlas según su viabilidad técnica, factibilidad operativa, costos, tiempos de desarrollo, escalabilidad y sostenibilidad. Este análisis permite fundamentar que la elección del ML responde a una evaluación crítica y no a una preferencia tecnológica arbitraria.
- Contexto de aplicación
La solución debe pensarse en función del entorno donde será implementada. Es clave definir el nivel del sistema de salud involucrado (atención primaria, hospitalaria, gestión) y describir las condiciones institucionales y operativas que podrían favorecer o limitar su adopción: infraestructura tecnológica, disponibilidad de personal capacitado, cultura organizacional, normativas locales, entre otros factores. Este diagnóstico debe basarse en un relevamiento realista del contexto para asegurar la viabilidad de la solución.
- Usuarios y beneficiarios
Es necesario distinguir entre usuarios directos, quienes interactuarán con la solución, como profesionales de salud, técnicos o gestores, y beneficiarios finales, como pacientes o comunidades. Esta diferenciación orienta el diseño funcional de la herramienta, su interfaz y las estrategias de implementación para maximizar su impacto.
- Aspectos éticos y gobernanza de datos
Desde el inicio, deben contemplarse principios éticos vinculados al uso de datos y la toma de decisiones automatizadas. Esto incluye identificar riesgos como sesgos algorítmicos, falta de transparencia o afectación de la autonomía clínica. Se deben establecer mecanismos de protección de la privacidad, uso responsable de datos y consentimiento informado. Además, se recomienda documentar los datos mediante un diccionario o esquema de metadatos que describa su origen, significado y formato, promoviendo la trazabilidad y estandarización.
- Tareas del modelo y su integración
Debe especificarse con claridad cuál será la función del modelo de ML: clasificación, regresión, segmentación, detección de anomalías, entre otros. También se debe describir cómo se integrará en el flujo operativo, qué decisiones apoyará y con qué frecuencia será utilizado (en tiempo real, por lotes, a demanda). Es importante considerar la interoperabilidad con sistemas existentes y los requerimientos de interfaz para su uso efectivo.
- Requerimientos de rendimiento
Finalmente, es necesario establecer las métricas con las que se evaluará el rendimiento del modelo, en función de su tarea (precisión, sensibilidad, especificidad, AUC, RMSE, R², etc.). Además del desempeño técnico, deben considerarse criterios más amplios para evaluar el éxito de la solución: utilidad clínica, mejora en la toma de decisiones, aceptación por parte de los usuarios, sostenibilidad y escalabilidad en el tiempo.
Mensajes clave de esta fase
- Claridad del problema: Tener una comprensión precisa y detallada del problema que se desea resolver.
- Solución general definida: Establecer una visión clara de la solución global antes de diseñar el dataset.
- Rol del modelo y el dataset en la solución: Entender cómo el dataset servirá como insumo fundamental para desarrollar el modelo que formará parte de la solución general.
- Inicio del proyecto desde el problema: Reconocer que el desarrollo del proyecto debe partir del problema a resolver y no del dataset en sí mismo, asegurando que todas las decisiones relacionadas con los datos estén alineadas con los objetivos del proyecto.
Clave
¡No empezar el proyecto desde el dataset!
Iniciar un proyecto de ML directamente desde la recopilación y diseño del dataset puede llevar a desviaciones respecto a los objetivos reales de la solución. Es fundamental que todo el proceso esté orientado a resolver el problema identificado, garantizando que el dataset sea realmente relevante y útil para alcanzar los objetivos de la solución.

Deja una respuesta