Fase 1: Definición del conjunto de datos diana (target dataset)

Compartí en tu redes sociales

Fase 1: Definición del conjunto de datos diana (target dataset)

Una vez clarificado el problema y establecidos los objetivos del proyecto, el siguiente paso es definir con precisión el target dataset. Este conjunto de datos ideal permitirá entrenar el modelo de machine learning (ML) de manera efectiva para resolver el problema identificado. Esta fase se enfoca en delinear las características y requisitos específicos del dataset necesario, estableciendo una base sólida y coherente con la Fase 0. A continuación, se describen los componentes clave.

 

Componentes del target dataset

Definir criterios de inclusión y exclusión

Es fundamental definir qué unidades de observación serán incluidas y excluidas del dataset para garantizar que el modelo se entrene con datos relevantes y representativos.

Sugerencia clave: Apoyarse en guías de práctica clínica y sistemas de clasificación estandarizados como la CIE-10, para construir criterios más robustos y clínicamente válidos.

A continuación se detallan: 

  • Criterios de inclusión: Especificar las características que deben tener los datos para ser incluidos en el dataset. Por ejemplo, pacientes con un diagnóstico específico, registros dentro de un rango de fechas determinado, o imágenes de una resolución mínima.
  • Criterios de exclusión: Determinar las condiciones que llevarán a la exclusión de ciertos datos. Por ejemplo, datos incompletos, registros con errores significativos, o subgrupos que no son relevantes para el objetivo del modelo.
  • Subgrupos para asegurar la performance: Identificar subgrupos específicos dentro de la población objetivo en los que se desea asegurar un rendimiento adecuado del modelo. Por ejemplo, diferentes grupos de edad, géneros, etnias, o condiciones clínicas particulares.

Los criterios deben estar alineados con la población de beneficiarios definida en la Fase 0. Es fundamental contemplar los metadatos asociados a cada unidad (por ejemplo, en imágenes: técnica utilizada, resolución, atributos demográficos). Además, se debe reflexionar sobre sesgos potenciales en la selección de datos. Por ejemplo, excluir imágenes de baja calidad puede derivar en la subrepresentación sistemática de poblaciones vulnerables, afectando la equidad del modelo.

 

Definir la unidad de observación

La unidad de observación debe alinearse con el nivel de anotación que se realizará en el dataset. Esto garantiza que cada entrada de datos corresponda de manera adecuada a la tarea de ML. Algunos ejemplos incluyen:

  • Texto completo (por ejemplo, nota clínica, reporte de imagen): Si la clasificación se realiza a nivel de texto completo, la unidad de observación será el texto. Si se clasifica a nivel de oración, entonces la unidad es la oración.  Si es por spans específicos dentro del texto, la unidad seguirá siendo el texto pero con anotaciones adicionales.
  • Imagen: Para tareas de segmentación, la unidad de observación es la imagen completa. Si se trabaja con patches (fragmentos) de una imagen para clasificación, entonces cada patch será la unidad de observación.
  • Fenotipificación electrónica: En algoritmos de clasificación de atributos personales que utilizan múltiples inputs, se pueden definir dos niveles de datasets:
    • Dataset de inputs: Unidad de observación a nivel de cada input, como textos clínicos, códigos diagnósticos, consumo de fármacos y valores de tensión arterial.
    • Dataset de persona: Unidad de observación a nivel individual, agregando todos los inputs de una persona.

Tomando como ejemplo la clasificación de «hipertensión arterial esencial», el proceso podría ser:

  • Para inputs no estructurados (textos clínicos), desarrollar un modelo de ML específico para extraer menciones del diagnóstico.
  • Crear un dataset de textos clínicos para entrenar este modelo de extracción.
  • Usar el output de este modelo como input en el dataset de persona.
  • En el dataset de persona, incluir variables de todos los inputs.
  • Asignar la etiqueta final (presencia o ausencia de hipertensión) mediante evaluación experta.
  • Entrenar un modelo de clasificación final basado en estos inputs.

Este enfoque permite un procesamiento multinivel y especializado para la fenotipificación electrónica.

 

Definir el target

La definición del target o etiqueta, es una etapa crítica en la creación del dataset, ya que establece qué es exactamente lo que el modelo debe predecir o clasificar. Un target bien definido asegura que el modelo esté alineado con los objetivos del proyecto y que las predicciones sean relevantes y útiles en el contexto clínico. Es fundamental que la definición esté alineada con lo definido en la fase 0 dentro de los objetivos del proyecto y particularmente de aquellos que es necesario que el modelo pueda realizar.

  • Identificación del target
      • Naturaleza del target: Determinar si el target es una variable categórica, numérica, binaria, etc. Por ejemplo, diagnóstico de una enfermedad (binaria: presente/ausente), clasificación de tipos de cáncer (multiclase), o predicción de valores continuos como niveles de glucemia.
      • Relevancia clínica: Asegurarse de que el target seleccionado sea clínicamente significativo y que su predicción aporte valor al proceso de toma de decisiones en salud.
  • Definición clara y precisa
    • Descripción detallada: Es fundamental documentar qué representa exactamente el target, cómo se define, cuáles son sus posibles valores, y cuál es la lógica que respalda su asignación. Por ejemplo, si se etiqueta la severidad de una enfermedad, deben definirse claramente las categorías utilizadas y sus criterios.
    • Consistencia en la definición: El target debe estar definido de forma coherente a lo largo de todo el dataset, evitando ambigüedades o variaciones que puedan perjudicar el proceso de entrenamiento o la validación del modelo.
    • Estabilidad temporal: Se debe considerar si la definición del target podría cambiar con el tiempo, ya sea por avances en el conocimiento médico, cambios en guías clínicas o evolución en los protocolos de atención. Esta reflexión es clave para planificar la actualización del dataset y del modelo.

 

Sugerencia: Incluir un diccionario de datos que especifique la operacionalización del target, detallando sus definiciones, valores válidos, fuentes, métodos de extracción, y responsables. Este documento facilita la transparencia, reproducibilidad y monitoreo del dataset a lo largo del ciclo de vida del modelo.

 

  • Definir el tipo de target para la unidad de observación: Es crucial especificar el tipo de etiqueta que se asignará a cada unidad de observación, lo cual influye directamente en la arquitectura del modelo y las técnicas de entrenamiento a emplear:
    • Multilabel: Cuando una unidad de observación puede pertenecer a múltiples categorías simultáneamente. Por ejemplo, un paciente que presenta múltiples condiciones clínicas.
    • Multiclass: Cuando cada unidad de observación pertenece a una única categoría entre varias posibles. Por ejemplo, clasificación de imágenes médicas en diferentes tipos de patologías.
    • Alcance: Determinar si la etiqueta se aplica a la unidad completa (por ejemplo, toda una imagen) o a una parte específica de ella (por ejemplo, un segmento de imagen o un span de texto).

Definir metadatos

Los metadatos enriquecen el dataset proporcionando contexto adicional que puede ser útil para el entrenamiento y la interpretación del modelo:

  • Fechas: Información temporal que puede ser relevante, como fechas de admisión, alta, o eventos clínicos.
  • Variables relacionadas: Datos complementarios que pueden influir en el análisis, como demografía del paciente, lugar de atención, historial médico o resultados de pruebas de laboratorio.

Definir subgrupos de interés

Identificar subgrupos específicos dentro del dataset permite evaluar si el modelo mantiene un rendimiento consistente a través de diferentes segmentos de la población:

  • Segmentación demográfica: Edad, género, etnia. Por ejemplo, analizar si un modelo de diagnóstico mantiene su rendimiento por igual en hombres y mujeres, o entre diferentes grupos etarios.
  • Condiciones clínicas: Presencia de comorbilidades, etapas de la enfermedad. Por ejemplo, diferenciar entre pacientes con una sola patología y aquellos con múltiples condiciones crónicas.
  • Otros criterios relevantes: Por ejemplo, tipo de institución de salud, ubicación geográfica, etc.

Definir el preprocesamiento de los datos

En muchos casos, el preprocesamiento de los datos, es posible definirlo a priori. Por ejemplo, si sabemos que vamos a trabajar con datos de textos clínicos pero nuestra unidad de observación es a nivel de oración, entonces va a ser necesario implementar alguna técnica para segmentar el texto en oraciones. Esto puede ser parte de un proceso manual hecho por expertos o aplicando algoritmos que automaticen el proceso con un nivel de error conocido.

  • Adecuación de la unidad de observación: Si se requiere clasificar texto a nivel de oraciones, es necesario segmentar los textos completos en oraciones individuales. Para anotaciones por span, se deben identificar y marcar los spans relevantes dentro del texto. En imágenes, si se trabaja con patches, se deben extraer y etiquetar los fragmentos de imagen correspondientes.
  • Corrección de errores: Identificar y corregir errores tipográficos, inconsistencias en los formatos de datos, y otros problemas que puedan afectar la calidad del dataset.

Definir las consideraciones éticas al desarrollar el dataset

El desarrollo de un dataset supervisado para ML en salud debe abordar de manera integral las consideraciones éticas para garantizar que el uso de los datos respete los derechos y la dignidad de los individuos involucrados. A continuación, se detallan los aspectos éticos fundamentales a considerar:

  • Definir lo procesos que garantizarán la privacidad y confidencialidad de los datos: Esto involucra la anonimización (técnicas para eliminar o enmascarar información que pueda identificar a individuos, como nombres, direcciones, o números de identificación), pseudoanonimización (técnica que permitan sustituir identificadores directos por pseudónimos, permitiendo la reidentificación solo bajo condiciones estrictamente controladas y con el consentimiento adecuado)  seguridad de datos (técnicas para proteger los datos contra accesos no autorizados, pérdidas o brechas de seguridad)
  • Mitigación de sesgos: Especificar en base a conocimiento experto los potenciales sesgos que podrían presentarse al momento de construir el dataset. Definir estrategias específicas para reducir los sesgos presentes en los datos que puedan llevar a discriminaciones hacia ciertos grupos demográficos o clínicos.
    • Definir los aspectos normativos: Explorar las normativas que deben ser cumplimentadas para un dataset en salud y planificar el plan de acción acorde.
  • Evaluación por comité de ética y obtención de consentimiento informado: Definir la necesidad de someter el proceso de construcción del dataset a un comité de ética en investigación, así como la necesidad de obtención de consentimiento explícito por parte de los participantes.

 

Mensajes clave de esta fase

  • Definición clara del target dataset: Establecer con precisión las características que debe tener el dataset ideal para entrenar el modelo de ML de manera efectiva.
  • Alineación con los objetivos del proyecto: Asegurar que cada componente del target dataset esté directamente relacionado con la solución del problema identificado.
  • Consideración de subgrupos y metadatos: Incorporar subgrupos específicos y metadatos relevantes para mejorar la performance y la interpretabilidad del modelo.
  • Incorporación de consideraciones éticas: Garantizar que el desarrollo del dataset respete la privacidad, equidad y otros principios éticos fundamentales.

 

Clave

¡Definir adecuadamente un dataset que sirva de referencia!

Definir el target dataset de manera precisa es crucial para el éxito del proyecto. Un dataset bien definido y alineado con los objetivos del proyecto permite entrenar modelos más precisos, reduciendo el riesgo de sesgos y mejorando la aplicabilidad de las soluciones desarrolladas en entornos clínicos reales.

 

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Ir al contenido