Fase 1: Definición del conjunto de datos diana (target dataset)

Compartí en tu redes sociales
Una vez que se ha clarificado el problema y los objetivos del proyecto, el siguiente paso es definir con precisión el target dataset. El target dataset es el conjunto de datos ideal que permitiría entrenar el modelo de ML de manera efectiva para resolver el problema identificado. Esta fase, denominada Fase 1, se enfoca en delinear las características y requisitos específicos del dataset necesario para alcanzar los objetivos del proyecto. A continuación, se detallan los componentes clave para definir el target dataset:  

Componentes del target dataset

Definir criterios de inclusión y exclusión

Definir claramente qué unidades de observación serán incluidas y excluidas en el dataset es fundamental para garantizar que el modelo aprenda de datos relevantes y representativos. Esto incluye:
  • Criterios de inclusión: Especificar las características que deben tener los datos para ser incluidos en el dataset. Por ejemplo, pacientes con un diagnóstico específico, registros dentro de un rango de fechas determinado, o imágenes de una resolución mínima.
  • Criterios de exclusión: Determinar las condiciones que llevarán a la exclusión de ciertos datos. Por ejemplo, datos incompletos, registros con errores significativos, o subgrupos que no son relevantes para el objetivo del modelo.
  • Subgrupos para asegurar la performance: Identificar subgrupos específicos dentro de la población objetivo en los que se desea asegurar un rendimiento adecuado del modelo. Por ejemplo, diferentes grupos de edad, géneros, etnias, o condiciones clínicas particulares.
Estos criterios deberían estar completamente alineados con la población de beneficiaros definida en la fase 0. Para esto, es fundamente tener en cuenta que los criterios de inclusión y exclusión deben contemplar los metadatos de la unidad de observación. Por ejemplo, si la unidad de observación son imágenes radiográficas de tórax, un criterio de inclusión puede ser que esas imágenes hayan sido tomadas con una técnica adecuada. Sin embargo, esto no es suficiente para detallar la población sobre la que queremos obtener datos. Para esto necesitamos además especificar tal vez grupos etarios, sexo, raza, origen geográfico, etc., atributos que son metadatos de la imagen. Por otro lado, es importante reflexionar sobre si los criterios de inclusión y exclusión están relacionados con otras características de la población lo que genere una selección sistemática de personas. Por ejemplo, si la calidad de la técnica de obtención de la imagen se correlaciona con el nivel socioeconómico de las personas, entonces sólo obtener imágenes de buena calidad puede estar dejando sistemáticamente fuera a algunos grupos. Si nuestra población de beneficiarios objetivo, descripta en la fase 0, incluye a personas de todos los estratos socioeconómicos, entonces muy probablemente al solo seleccionar imágenes de buena calidad, vamos a tener subrepresentada a una parte de nuestra población objetivo en nuestro dataset. Es esperable que luego, una vez entrenado el modelo sobre esos datos, tenga una performance sistemáticamente inferior en los grupos que fueron excluidos. Esto es un problema importante siempre y cuando estemos excluyendo personas de nuestro dataset, que luego son parte de la población objetivo.  

Definir la unidad de observación

La unidad de observación debe alinearse con el nivel de anotación que se realizará en el dataset. Esto garantiza que cada entrada de datos corresponda de manera adecuada a la tarea de ML. Algunos ejemplos incluyen:
  • Texto completo (por ejemplo, nota clínica, reporte de imagen): Si la clasificación se realiza a nivel de texto completo, la unidad de observación será el texto. Si se clasifica a nivel de oración, entonces la unidad es la oración.  Si es por spans específicos dentro del texto, la unidad seguirá siendo el texto pero con anotaciones adicionales.
  • Imagen: Para tareas de segmentación, la unidad de observación es la imagen completa. Si se trabaja con patches (fragmentos) de una imagen para clasificación, entonces cada patch será la unidad de observación.
  • Fenotipificación electrónica: En algoritmos de clasificación de atributos personales que utilizan múltiples inputs, se pueden definir dos niveles de datasets:
    • Dataset de inputs: Unidad de observación a nivel de cada input, como textos clínicos, códigos diagnósticos, consumo de fármacos y valores de tensión arterial.
    • Dataset de persona: Unidad de observación a nivel individual, agregando todos los inputs de una persona.
Tomando como ejemplo la clasificación de «hipertensión arterial esencial», el proceso podría ser:
  • Para inputs no estructurados (textos clínicos), desarrollar un modelo de ML específico para extraer menciones del diagnóstico.
  • Crear un dataset de textos clínicos para entrenar este modelo de extracción.
  • Usar el output de este modelo como input en el dataset de persona.
  • En el dataset de persona, incluir variables de todos los inputs.
  • Asignar la etiqueta final (presencia o ausencia de hipertensión) mediante evaluación experta.
  • Entrenar un modelo de clasificación final basado en estos inputs.
Este enfoque permite un procesamiento multinivel y especializado para la fenotipificación electrónica.  

Definir el target

La definición del target o etiqueta, es una etapa crítica en la creación del dataset, ya que establece qué es exactamente lo que el modelo debe predecir o clasificar. Un target bien definido asegura que el modelo esté alineado con los objetivos del proyecto y que las predicciones sean relevantes y útiles en el contexto clínico. Es fundamental que la definición esté alineada con lo definido en la fase 0 dentro de los objetivos del proyecto y particularmente de aquellos que es necesario que el modelo pueda realizar.
  • Identificación del target
      • Naturaleza del target: Determinar si el target es una variable categórica, numérica, binaria, etc. Por ejemplo, diagnóstico de una enfermedad (binaria: presente/ausente), clasificación de tipos de cáncer (multiclase), o predicción de valores continuos como niveles de glucemia.
      • Relevancia clínica: Asegurarse de que el target seleccionado sea clínicamente significativo y que su predicción aporte valor al proceso de toma de decisiones en salud.
  • Definición clara y precisa
    • Descripción detallada: Documentar qué representa el target, cómo se define y cuáles son sus posibles valores. Por ejemplo, si el target es la severidad de una enfermedad, definir las categorías de severidad utilizadas. Asegurar que el target se defina de manera consistente a lo largo de todo el dataset, evitando ambigüedades que puedan afectar el entrenamiento del modelo.
    • Estabilidad temporal: Considerar si la definición del target puede cambiar con el tiempo debido a avances médicos o cambios en protocolos clínicos, y cómo esto impactará en la actualización del dataset y del modelo.
  • Definir el tipo de target para la unidad de observación: Es crucial especificar el tipo de etiqueta que se asignará a cada unidad de observación, lo cual influye directamente en la arquitectura del modelo y las técnicas de entrenamiento a emplear:
    • Multilabel: Cuando una unidad de observación puede pertenecer a múltiples categorías simultáneamente. Por ejemplo, un paciente que presenta múltiples condiciones clínicas.
    • Multiclass: Cuando cada unidad de observación pertenece a una única categoría entre varias posibles. Por ejemplo, clasificación de imágenes médicas en diferentes tipos de patologías.
    • Alcance: Determinar si la etiqueta se aplica a la unidad completa (por ejemplo, toda una imagen) o a una parte específica de ella (por ejemplo, un segmento de imagen o un span de texto).

Definir metadatos

Los metadatos enriquecen el dataset proporcionando contexto adicional que puede ser útil para el entrenamiento y la interpretación del modelo:
  • Fechas: Información temporal que puede ser relevante, como fechas de admisión, alta, o eventos clínicos.
  • Variables relacionadas: Datos complementarios que pueden influir en el análisis, como demografía del paciente, lugar de atención, historial médico o resultados de pruebas de laboratorio.

Definir subgrupos de interés

Identificar subgrupos específicos dentro del dataset permite evaluar si el modelo mantiene un rendimiento consistente a través de diferentes segmentos de la población:
  • Segmentación demográfica: Edad, género, etnia.
  • Condiciones clínicas: Presencia de comorbilidades, etapas de la enfermedad.
  • Otros criterios relevantes: Por ejemplo, tipo de institución de salud, ubicación geográfica, etc.

Definir el preprocesamiento de los datos

En muchos casos, el preprocesamiento de los datos, es posible definirlo a priori. Por ejemplo, si sabemos que vamos a trabajar con datos de textos clínicos pero nuestra unidad de observación es a nivel de oración, entonces va a ser necesario implementar alguna técnica para segmentar el texto en oraciones. Esto puede ser parte de un proceso manual hecho por expertos o aplicando algoritmos que automaticen el proceso con un nivel de error conocido.
  • Adecuación de la unidad de observación: Si se requiere clasificar texto a nivel de oraciones, es necesario segmentar los textos completos en oraciones individuales. Para anotaciones por span, se deben identificar y marcar los spans relevantes dentro del texto. En imágenes, si se trabaja con patches, se deben extraer y etiquetar los fragmentos de imagen correspondientes.
  • Corrección de errores: Identificar y corregir errores tipográficos, inconsistencias en los formatos de datos, y otros problemas que puedan afectar la calidad del dataset.

Definir las consideraciones éticas al desarrollar el dataset

El desarrollo de un dataset supervisado para ML en salud debe abordar de manera integral las consideraciones éticas para garantizar que el uso de los datos respete los derechos y la dignidad de los individuos involucrados. A continuación, se detallan los aspectos éticos fundamentales a considerar:
  • Definir lo procesos que garantizarán la privacidad y confidencialidad de los datos: Esto involucra la anonimización (técnicas para eliminar o enmascarar información que pueda identificar a individuos, como nombres, direcciones, o números de identificación), pseudoanonimización (técnica que permitan sustituir identificadores directos por pseudónimos, permitiendo la reidentificación solo bajo condiciones estrictamente controladas y con el consentimiento adecuado)  seguridad de datos (técnicas para proteger los datos contra accesos no autorizados, pérdidas o brechas de seguridad)
  • Mitigación de sesgos: Especificar en base a conocimiento experto los potenciales sesgos que podrían presentarse al momento de construir el dataset. Definir estrategias específicas para reducir los sesgos presentes en los datos que puedan llevar a discriminaciones hacia ciertos grupos demográficos o clínicos.
    • Definir los aspectos normativos: Explorar las normativas que deben ser cumplimentadas para un dataset en salud y planificar el plan de acción acorde.
  • Evaluación por comité de ética y obtención de consentimiento informado: Definir la necesidad de someter el proceso de construcción del dataset a un comité de ética en investigación, así como la necesidad de obtención de consentimiento explícito por parte de los participantes.
 

Mensajes clave de esta fase

  1. Definición clara del target dataset: Establecer con precisión las características que debe tener el dataset ideal para entrenar el modelo de ML de manera efectiva.
  2. Alineación con los objetivos del proyecto: Asegurar que cada componente del target dataset esté directamente relacionado con la solución del problema identificado.
  3. Consideración de subgrupos y metadatos: Incorporar subgrupos específicos y metadatos relevantes para mejorar la performance y la interpretabilidad del modelo.
  4. Incorporación de consideraciones éticas: Garantizar que el desarrollo del dataset respete la privacidad, equidad y otros principios éticos fundamentales.
 

Clave

¡Definir adecuadamente un dataset que sirva de referencia!

Definir el target dataset de manera precisa es crucial para el éxito del proyecto. Un dataset bien definido y alineado con los objetivos del proyecto permite entrenar modelos más precisos, reduciendo el riesgo de sesgos y mejorando la aplicabilidad de las soluciones desarrolladas en entornos clínicos reales.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Ir al contenido