Contenido de este artículo
Fase 0: ¿Qué tener en claro antes de desarrollar el conjunto de datos? Definición del problema y objetivos
Antes de iniciar el desarrollo de un dataset supervisado para un proyecto de Machine Learning (ML) en el ámbito de la salud, es crucial establecer una base sólida que guíe todo el proceso. Esta fase inicial, denominada Fase 0, se centra en clarificar el problema que se desea resolver, entender cómo el dataset encaja en la solución general y definir claramente los objetivos del proyecto. A continuación, se detallan los aspectos fundamentales a considerar:
Clarificar el problema y la solución
Detallar el problema que queremos resolver
Es esencial describir con precisión el problema clínico o de salud que se pretende abordar. Esto implica:
- Descripción del problema: Explicar la naturaleza del problema, su relevancia en el contexto de la salud y las consecuencias de no resolverlo.
Detallar la solución que se planea desarrollar e implementar
- Descripción de la solución global: Detallar el proceso de solución que se plantea implementar junto con el producto final, como encaja en el proceso de salud y cuál es el valor que agrega.
- Justificación del Uso de ML: Explicar por qué las técnicas de ML son apropiadas para la solución, considerando factores como la complejidad del problema, la disponibilidad de datos y el potencial de mejora frente a métodos tradicionales.
- Alternativas: Considerar otras posibles soluciones y comparar su viabilidad y efectividad con las propuestas basadas en ML.
- Describir el contexto de aplicación: detallar el contexto operativo en el que la solución operaría. Por ejemplo, puede integrarse en procesos asistenciales, de investigación, planeamiento o gestión. Es fundamental visualizar el contexto y tener una noción clara basada en relevamientos del mundo real sobre cómo el contexto va a incidir sobre la solución y su implementación.
- Definir a los beneficiarios últimos de la solución y usuarios: Identificar quiénes se beneficiarán directamente del producto final y quienes interactuarán directamente con la solución.
- Consideraciones éticas: Describir los aspectos éticos clave que deben contemplarse y que atravesarán de forma transversal todo el desarrollo de la solución, tanto los aspectos relacionados con el modelo de ML como otros.
- Integración del modelo de ML: Describir cómo el modelo de ML se integrará en el proceso propio de la solución. Enumerar los beneficios que se esperan obtener al utilizar el modelo, como mayor precisión en diagnósticos, personalización de tratamientos, o eficiencia en la gestión de recursos.
- Especificar las tareas del modelo: Clasificación, predicción, segmentación, detección de anomalías, etc.
- Requerimientos de rendimiento: Establecer métricas clave que el modelo debe cumplir, como precisión, sensibilidad, especificidad, etc.
Mensajes clave de esta fase
- Claridad del problema: Tener una comprensión precisa y detallada del problema que se desea resolver.
- Solución general definida: Establecer una visión clara de la solución global antes de diseñar el dataset.
- Rol del modelo y el dataset en la solución: Entender cómo el dataset servirá como insumo fundamental para desarrollar el modelo que formará parte de la solución general.
- Inicio del proyecto desde el problema: Reconocer que el desarrollo del proyecto debe partir del problema a resolver y no del dataset en sí mismo, asegurando que todas las decisiones relacionadas con los datos estén alineadas con los objetivos del proyecto.
Clave
¡No empezar el proyecto desde el dataset!
Iniciar un proyecto de ML directamente desde la recopilación y diseño del dataset puede llevar a desviaciones respecto a los objetivos reales de la solución. Es fundamental que todo el proceso esté orientado a resolver el problema identificado, garantizando que el dataset sea realmente relevante y útil para alcanzar los objetivos de la solución.
Deja una respuesta