Recomendaciones para la documentación de conjuntos de datos en salud

Compartí en tu redes sociales

¿Por qué hay que documentar?

Los conjuntos de datos de salud que carecen de documentación adecuada pierden contexto y trazabilidad, volviéndose difíciles de interpretar, verificar o reutilizar. Esta opacidad puede generar errores analíticos, duplicación de esfuerzos y decisiones equivocadas. En el campo de la inteligencia artificial, la falta de documentación amplifica los riesgos de sesgos ocultos y desigualdades, al desconocerse la composición de la muestra o los procesos de manejo de datos. Así, un conjunto de datos sin documentación se convierte en un recurso desperdiciado.

La documentación rigurosa de los conjuntos de datos de salud es esencial para garantizar su calidad, transparencia y reutilización responsable en investigación, innovación tecnológica, y política sanitaria. Un conjunto de datos bien documentado facilita la comprensión de su origen, estructura, propósito y limitaciones, promoviendo la confianza y la reproducibilidad científica.

¿Qué hay que documentar?

El proceso debe comenzar con una descripción general del conjunto de datos, que incluya su nombre, versión, responsables, institución gestora, fechas de recolección y objetivos del proyecto. También debe especificar la población o muestra estudiada, los criterios de inclusión y exclusión, así como el contexto clínico o geográfico.

La documentación debe detallar los métodos de recolección de datos, señalando las fuentes (registros médicos, encuestas, sensores, imágenes, etc.), los instrumentos utilizados, la capacitación del personal y los procedimientos de control de calidad aplicados.

La documentación también debe incluir información sobre la infraestructura técnica, software empleado, versiones y procedimientos de respaldo. Se recomienda utilizar estándares internacionales de metadatos (como Dublin Core, DataCite Metadata Schema o HL7 FHIR) y mantener repositorios que aseguren la conservación y actualización de los datos.

¿Cómo hacer una documentación de conjuntos de datos completa?

Procesamiento y manejo de datos

Es indispensable registrar el procesamiento y manejo de los datos, incluyendo las etapas de limpieza, anonimización, imputación o estandarización. La trazabilidad de los cambios mejora la reproducibilidad y evita sesgos. Asimismo, deben definirse los formatos, variables y diccionarios de datos, con definiciones claras, unidades de medida, categorías y codificaciones empleadas.

Aspectos éticos y legales

Debe documentar el procedimiento del consentimiento informado, la aprobación por comités de ética, las políticas de privacidad y los mecanismos de protección de la identidad de los participantes. También debe indicarse el nivel de acceso permitido (abierto, restringido o cerrado) y las condiciones para su uso o redistribución.

 

Limitaciones y advertencias

Es importante incorporar un registro de limitaciones y advertencias, incluyendo posibles sesgos, errores de medición, datos faltantes o cambios metodológicos a lo largo del tiempo. Todo conjunto de datos tiene limitaciones, por lo que revelarlas abiertamente es un acto de rigor. No hacerlo, añade una limitación aún mayor, la falta de transparencia.

Estas recomendaciones promueven la creación de conjuntos de datos de salud transparentes, reproducibles y éticamente sólidos, que faciliten la colaboración científica, la innovación en salud digital y la generación de evidencia de alta calidad. Estas recomendaciones del consenso STANDING Together surgen para combatir un riesgo clave: la perpetuación de las desigualdades en salud debido a los sesgos en la IA, frecuentemente causados por los datos que la sustentan. 

Por Cender Quispe

Ir al contenido