¿Qué tan buenos son tus datos sintéticos? el aporte de SynthRO

Compartí en tu redes sociales

La recolección exponencial de datos en el área de la salud ofrece un enorme potencial para responder preguntas médicas críticas y desarrollar soluciones de inteligencia artificial, pero las restricciones de privacidad limitan el acceso a estos datos, creando un obstáculo que ralentiza tanto la investigación como la transferencia de innovaciones del laboratorio a la práctica clínica. Frente a este reto, los datos sintéticos han emergido como una alternativa prometedora. Se trata de conjuntos de datos artificiales que imitan las propiedades estadísticas de datos reales de pacientes, preservando en gran medida su valor analítico sin exponer información sensible.

La generación de datos sintéticos enfrenta desafíos metodológicos a pesar de contar con diversos enfoques desde métodos estadísticos clásicos hasta modelos de aprendizaje profundo (como las Generative Adversarial Networks, GANs): pueden heredar y amplificar sesgos de los datos originales (como poblaciones subrepresentadas), tienen dificultades para preservar relaciones lógicas esenciales en salud (coherencia entre edad y diagnóstico), enfrentan el dilema entre fidelidad y privacidad (mayor similitud implica mayor riesgo de reidentificación), y sufren de inestabilidad en el entrenamiento que afecta la calidad y reproducibilidad de los datasets generados, lo que resalta la necesidad de marcos sólidos de evaluación para determinar si un dataset sintético es “bueno” para una aplicación específica.

La evaluación de los datos sintéticos se suele organizar en tres dimensiones:

1) Semejanza: mide hasta qué punto los datos sintéticos preservan las distribuciones y correlaciones de los datos originales. Incluye métricas univariadas (como la comparación de histogramas) y multivariadas (como la estructura de correlación).

2) Utilidad: evalúa si los modelos entrenados con datos sintéticos rinden de manera similar a los entrenados con datos reales. Aquí se comparan métricas de rendimiento (precisión, sensibilidad, AUC, etc.) entre ambos escenarios.

3) Privacidad: determina el riesgo de que un dato sintético pueda revelar información de un paciente real. Se utilizan métricas de disclosure risk o simulaciones de ataques para evaluar la exposición de información sensible.

El desafío está en que maximizar la semejanza y la utilidad puede incrementar riesgos de privacidad. A la inversa, priorizar la privacidad puede generar datos demasiado “ruidosos” e inútiles para entrenar modelos. Por lo que la evaluación depende del contexto de aplicación y de qué aspecto se considere más crítico.

SynthRO: una herramienta práctica de evaluación

Para responder a estos desafíos, Santangelo y colaboradores desarrollaron SynthRO (Synthetic data Rank and Order), una herramienta que evalúa y compara datos sintéticos tabulares en salud mediante la calibración personalizable de pesos entre métricas de semejanza, utilidad y privacidad, generando reportes comparativos automatizados a través de una interfaz gráfica intuitiva. https://bmcmedinformdecismak.biomedcentral.com/articles/10.1186/s12911-024-02731-9

Las pruebas con diferentes métodos generativos (baseline, HealthGAN, SDV) demostraron que ajustar los pesos produce decisiones de selección contextualizadas. Además, SynthRO alcanzó una puntuación de usabilidad de 83,9 (excelente), mostrando navegación fluida para expertos y competencia funcional para no expertos tras entrenamiento mínimo. SynthRO es sin duda una herramienta que vale la pena explorar. https://github.com/bmi-labmedinfo/SynthRO

Los datos sintéticos no reemplazan completamente a los datos clínicos reales, no obstante, constituyen un recurso valioso para validar algoritmos y realizar investigación en contextos donde el acceso a datos auténticos es limitado o está muy restringido. El potencial de los datos sintéticos en salud es innegable, pero sus límites también lo son. Es necesario el uso de métricas estandarizadas que garanticen calidad y seguridad. SynthRO avanza en esta dirección al ofrecer una herramienta reproducible, transparente, y usable. La adopción responsable de datos sintéticos requiere de escrutinio y comparabilidad, SynthRO puede facilitar ese trabajo. 



Ir al contenido