Después de definir claramente el target dataset en la Fase 1, el siguiente paso es operacionalizar esta definición para construir el dataset real que será utilizado para entrenar el modelo de ML. La Fase 2 se centra en cómo explícitamente traducir las especificaciones del target dataset en un conjunto de datos operativo, utilizando fuentes de datos primarias o secundarias según corresponda o sea factible. A continuación, se detallan los pasos y consideraciones clave para esta fase, alineados con las secciones de la Fase 1.
Contenido de este artículo
Selección y evaluación de fuentes de datos
El primer paso en la operativización del target dataset es seleccionar las fuentes de datos adecuadas que permitan construir el dataset conforme a las especificaciones definidas en la Fase 1. Las fuentes de datos pueden ser primarias o secundarias, y cada una presenta sus propios desafíos y ventajas.
Fuentes primarias
Las fuentes primarias son aquellas que generan datos directamente para el propósito específico del proyecto. Implica construir el dataset desde cero, por ejemplo mediante cuestionarios o encuestas. Utilizar fuentes primarias puede ofrecer mayor control sobre la calidad y relevancia de los datos, pero también puede implicar mayores costos y tiempo.
- Evaluación de factibilidad:
- Accesibilidad: Determinar si es posible acceder a las fuentes primarias necesarias, considerando aspectos como permisos, recursos y tiempo.
- Recursos necesarios: Evaluar los recursos técnicos y humanos requeridos para la recolección de datos primarios.
- Adaptación a los requisitos del proyecto especificados en el target dataset:
- Diseño de instrumentos de recolección: Crear formularios, encuestas, o protocolos de recolección de datos que capturen la información necesaria.
- Capacitación de personal: Asegurar que el personal involucrado en la recolección de datos esté adecuadamente capacitado para mantener la consistencia y calidad de los datos.
Fuentes secundarias
Las fuentes secundarias son aquellas que ya contienen datos recopilados previamente para otros fines. Utilizar fuentes secundarias puede ser más eficiente en términos de tiempo y costos, pero puede presentar desafíos en cuanto a la adecuación y calidad de los datos.
- Evaluación de factibilidad:
- Adecuación al target dataset: Evaluar si los datos disponibles en fuentes secundarias se aproximan suficientemente a los requerimientos del target dataset. Esto incluye verificar si las variables necesarias están presentes y si las definiciones de las variables coinciden o son adaptables a las establecidas en la Fase 1.
- Calidad y completitud: Analizar la calidad de los datos, identificando posibles inconsistencias, errores o valores faltantes que puedan afectar el rendimiento del modelo o introducir sesgos.
- Cobertura: Evaluar si la población incluida en la fuente secundaria está alineada con la definida en el target dataset.
Evaluación del tipo de fuente a utilizar
Si las fuentes secundarias no cumplen con los requisitos del target dataset en términos de calidad, relevancia o cobertura, es necesario considerar, ya sea, la recolección de datos primarios como una alternativa necesaria para alcanzar los objetivos del proyecto o redefinir el target dataset de modo que quede explícita la alineación. Sin embargo, esto último puede desviarnos de los objetivos del proyecto. Habitualmente es necesario un proceso iterativo entre la definición del target dataset y la exploración de la fuente secundaria, hasta poder converger en un target dataset que esté alineado con lo que la fuente secundaria puede brindar. Sin embargo, es fundamental que el target dataset quede completamente alineado con los objetivos del proyecto y las necesidades del modelo. Si esto no se cumpliera, debería considerarse buscar otra fuente que complemente las deficiencias, cambiar de fuente secundaria o directamente diseñar un proceso de recolección de datos primarios.
Operacionalización de los criterios del target dataset
Esta sección es particularmente útil para la alineación explícita entre el target dataset y el dataset operativo cuando este último se construye a partir de fuentes secundarias. En el caso de optar por la construcción de una fuente primaria, el target dataset debería ser la referencia de operativización.
Definir los criterios de inclusión y exclusión
Las fuentes secundarias pueden haber sido recopiladas con criterios de inclusión y exclusión diferentes a los definidos en el target dataset. Esto puede resultar en una selección de datos que no se alinea perfectamente con los objetivos del proyecto generando problemas al momento de la implementación tanto de performance global como de performance en grupos específicos. Por ejemplo, si el target dataset requiere pacientes con un diagnóstico específico y la fuente secundaria incluye pacientes con diagnósticos variados sin una clasificación detallada, se necesitará un filtrado exhaustivo y posiblemente la re-definición de categorías diagnósticas. A su vez, asegurar la performance en subgrupos específicos puede ser difícil si la fuente secundaria no contiene una representación adecuada de estos subgrupos.
Definir la unidad de observación
Las fuentes secundarias pueden tener diferentes niveles de granularidad en la unidad de observación, lo que requiere transformaciones adicionales para alinearlas con el target dataset. Por ejemplo, si el target dataset define la unidad de observación a nivel de oración en textos clínicos, pero la fuente secundaria solo proporciona textos completos sin segmentación, será necesario implementar algoritmos de procesamiento de lenguaje natural para segmentar los textos. A su vez, diferentes fuentes secundarias pueden tener estructuras de datos heterogéneas, lo que complica la estandarización y la integración como suele suceder con bases de datos de imágenes médicas provenientes de distintos hospitales que pueden tener resoluciones y formatos de archivo variados, requiriendo preprocesamiento específico para uniformizar las imágenes.
Definir el target
En el caso que no se requiera anotación, las fuentes secundarias pueden no disponer de etiquetas que se correspondan exactamente con las definiciones del target dataset, lo que podría requerir mapeos o redefiniciones. Por ejemplo, si el target dataset requiere una clasificación multiclase específica para tipos de cáncer, pero la fuente secundaria solo proporciona una clasificación binaria (cáncer/no cáncer), se deberá considerar la viabilidad de obtener etiquetas más detalladas. Por otro lado, las etiquetas provenientes de fuentes secundarias pueden tener una precisión variable debido a diferencias en la anotación original. Un ejemplo de esto sería que, en una base de datos secundaria de imágenes médicas, las etiquetas de patologías pueden haber sido asignadas por diferentes especialistas con distintos niveles de expertise, introduciendo variabilidad en la calidad de las etiquetas.
En caso que el target necesite ser anotado, es decir, no exista en la base de datos (por ejemplo una imagen que tiene un reporte pero no tiene la segmentación), es necesario que el target definido en el target dataset se repesente en el proceso de anotación y en el manual como se verá en la fase 3.
Definir metadatos
Las fuentes secundarias pueden carecer de ciertos metadatos necesarios para enriquecer el dataset, limitando la capacidad de análisis contextual. Por ejemplo, si el target dataset requiere información sobre la fecha de admisión y alta hospitalaria, pero la fuente secundaria solo proporciona datos de diagnóstico, se necesitará complementar con otras fuentes o ajustar las expectativas del dataset. A su vez, los metadatos presentes pueden estar incompletos, inconsistentes o mal estructurados, dificultando su integración y uso.
Definir subgrupos de interés
Las fuentes secundarias pueden no representar adecuadamente todos los subgrupos definidos, lo que puede comprometer la equidad y la generalización del modelo. Por ejemplo, una base de datos secundaria que contiene principalmente datos de una región geográfica específica puede no reflejar las características demográficas de otras regiones quedado desalineado con la población definida en el target dataset. Por otro lado, la distribución de los subgrupos en fuentes secundarias puede ser altamente desbalanceada, lo que requiere técnicas avanzadas para manejar el desbalance y asegurar un rendimiento adecuado en todos los subgrupos.
Definir el preprocesamiento de los datos
Algunos aspectos del preprocesamiento pueden haberse definido a priori al formular el target dataset. Sin embargo, tras explorar los datos es posible que surjan nuevas necesidades de transformación. Es importante considerar que algunas transformaciones específicas de dominio son necesarias para que se alineen los datos secundarios con las necesidades del target dataset. Este proceso puede puede ser complejo y requerir conocimientos profundos del dominio clínico por lo cual resulta necesario colaborar estrechamente con expertos clínicos para diseñar y validar las transformaciones necesarias, asegurando que se mantenga la integridad y relevancia clínica de los datos.
Definir las consideraciones éticas al desarrollar el dataset
Durante la operativización del target dataset, es fundamental mantener un enfoque ético para garantizar que el uso de los datos respete los derechos y la dignidad de los individuos involucrados. Estas consideraciones éticas ya fueron abordadas en la Fase 1, pero deben ser continuamente aplicadas durante la construcción del dataset.
- Privacidad y confidencialidad: Las técnicas de anonimización pueden no ser suficientes para prevenir la reidentificación de individuos cuando se combinan múltiples fuentes secundarias. En muchos casos en necesario implementar técnicas avanzadas de anonimización, como el uso de perturbación diferencial o k-anonimato, y realizar evaluaciones de riesgo de reidentificación antes de la integración de datos.
- Gestión de accesos y control de seguridad: Asegurar que solo el personal autorizado tenga acceso a los datos sensibles es un desafío continuo, especialmente cuando se manejan múltiples fuentes secundarias.
- Evaluación por comité de ética y obtención de consentimiento informado: Es necesario que todo proceso de recolección de datos o explotación de fuentes secundarias, sean evaluado por un comité de ética. Respecto del consentimiento informado, es posible que las fuentes secundarias no hayan obtenido un consentimiento específico para el uso de datos en proyectos de ML, lo que puede limitar su utilización legal y ética. Es importante revisar las políticas de uso de datos de las fuentes secundarias y, si es necesario, obtener nuevas autorizaciones o realizar un análisis de compatibilidad con el consentimiento original otorgado por los participantes.
- Mitigación de sesgos: Las fuentes secundarias pueden contener sesgos inherentes debido a cómo fueron recopilados originalmente, lo que puede perpetuar o exacerbar desigualdades en el modelo de ML. Es fundamental realizar un análisis exhaustivo de la alineación entre la población objetivo definida en el target dataset y la disponible en la fuente secundaria. Conocimiento experto de los procesos de recolección de datos de la fuente secundaria pueden ser muy útiles para evaluar sesgos que no se reflejen en los datos.
Mensajes clave de esta fase
- Selección adecuada de fuentes de datos: Elegir entre fuentes primarias y secundarias basándose en la factibilidad, calidad y adecuación a los requisitos del target dataset.
- Mantenimiento de consideraciones éticas: Continuar respetando la privacidad, equidad y otros principios éticos durante todo el proceso de operativización.
Clave
¡Planificar la operativización del target dataset!
La operativización del target dataset es una etapa crítica que transforma las especificaciones teóricas en un conjunto de datos operativo y utilizable para el entrenamiento de modelos de ML. Una operativización cuidadosa y bien planificada asegura que el dataset resultante sea de alta calidad, representativo y alineado con los objetivos del proyecto, lo que a su vez facilita el desarrollo de modelos precisos y éticamente responsables en el ámbito de la salud.
Deja una respuesta