Una vez que el target dataset ha sido operacionalizado, el siguiente paso crucial es definir el proceso de anotación y desarrollar un manual de anotación detallado. Esta fase, denominada Fase 3, asegura que las etiquetas o anotaciones aplicadas a los datos sean consistentes, precisas y alineadas con los objetivos del proyecto y target dataset. Además, implica la selección de un equipo de anotadores capacitados y la definición de objetivos claros que equilibren el tamaño muestral con el rendimiento del modelo. A continuación, se desglosan los componentes clave de esta fase:
Contenido de este artículo
Desarrollo del manual de anotación
El manual de anotación es un documento fundamental que guía a los anotadores en la aplicación consistente de etiquetas a los datos. Un manual bien elaborado garantiza la uniformidad y la calidad de las anotaciones, lo que es esencial para el rendimiento del modelo de ML.Definición de los conceptos a anotar
Es esencial identificar y definir claramente los conceptos que serán anotados en el dataset. Estos conceptos deben estar alineados con los objetivos del proyecto y deben ser relevantes para la tarea de ML.- Identificación de conceptos clave: Determinar qué elementos específicos dentro de los datos (por ejemplo, enfermedades, síntomas, entidades en texto clínico, regiones en imágenes médicas) deben ser anotados.
- Definición precisa: Proporcionar definiciones claras y detalladas para cada concepto, utilizando lenguaje experto, evitando ambigüedades que puedan llevar a interpretaciones inconsistentes. Esta definición debe estar orientada a que una persona experta (quien hace la anotación) puede entender claramente qué es lo que se busca anotar (por ejemplo, identificar el estatus tabáquico de una persona en un momento en el tiempo). Debe describir las posibles categorías de anotación y estas deben mapearse con el conocimiento temático. Idealmente estas categorías además deberían mapear con alguna terminología médica como SNOMED CT o clasificación como CIE, de modo que tengan un código asociado y luego puedan utilizarse dentro de esas ontologías o clasificaciones. Esta definición es la guía general para el anotador experto. Le permite tener una idea clara de cuál es el “espíritu” de lo que se busca anotar. Luego esta definición estará operativizada en el manual para que el procedimiento de anotación sea más fácil y este estandarizado entre anotadores.
Procedimientos de anotación
Establecer procedimientos claros y estandarizados para la anotación garantiza que todos los anotadores sigan un enfoque uniforme.-
- Flujo de trabajo de anotación: Describir los pasos que los anotadores deben seguir, desde la revisión de los datos hasta la aplicación de etiquetas y la revisión final, así como la validación y aceptación por parte del equipo coordinador.
- Procedimiento de selección de etiquetas: Instrucciones detalladas sobre cuándo y cómo aplicar cada etiqueta, incluyendo criterios específicos para casos ambiguos. A diferencia de la sección previa, en la que se definen los conceptos a anotar en términos expertos (de salud en este caso), esta sección debe operativizar en un procedimiento claro cómo definir el target. Por ejemplo, si se busca detectar en un texto clínico, si una persona tiene diabetes tipo 2 (definido más arriba en la sección previa), en esta sección debe estar especificado el procedimiento para eso, como ser: “1. Revisar sección de antecedentes personales, 2. En el texto general, buscar referencias a glucemias en ayunas o hemoglobinas glicosiladas por encima del punto de corte, 3. En la sección de mediciones buscar registro sobre la indicación o consumo de los siguientes fármacos…”. Esto facilita el trabajo a los anotadores y permite la estandarización entre ellos. A su vez, se complementa con la definición conceptual formulada antes, ya que, dado que los anotadores son personas expertas, pueden detectar problemas en la operativización de las categorías basándose en las categorías de anotación descriptas previamente. Este enfoque facilita el trabajo de los anotadores y promueve la estandarización, ya que se combina con la definición conceptual previa. Además, como los anotadores son expertos en la materia, pueden identificar posibles problemas en la aplicación de las categorías basándose en las definiciones ya establecidas. De esta forma, se logra aprovechar el conocimiento especializado de los anotadores y, a la vez, se garantiza un procedimiento estandarizado que reduce las diferencias de interpretación.
Ejemplos y casos de uso
Incluir ejemplos prácticos y casos de uso en el manual de anotación ayuda a los anotadores a comprender mejor cómo aplicar las etiquetas en diferentes contextos.- Ejemplos ilustrativos: Proporcionar ejemplos concretos que muestren cómo se deben aplicar las etiquetas en situaciones específicas.
- Casos de uso variados: Incluir una variedad de escenarios que los anotadores puedan encontrar, cubriendo tanto casos típicos como excepcionales.
Cambios en definiciones y actualizaciones
El manual de anotación debe ser un documento dinámico que se actualiza conforme surgen nuevas necesidades o se identifican áreas de mejora.- Proceso de revisión y actualización: Establecer un protocolo para revisar y actualizar el manual de anotación periódicamente.
- Registro de Cambios: Mantener un historial de cambios para rastrear modificaciones en las definiciones y procedimientos.
Uso del software de anotación
Seleccionar y utilizar el software de anotación adecuado es crucial para facilitar un proceso de anotación eficiente y preciso. Para esto es necesario elegir herramientas que sean compatibles con el tipo de datos, las necesidades del proyecto (por ejemplo, herramientas de anotación de texto, plataformas de etiquetado de imágenes) y fundamentalmente que la interfaz se adecue al flujo de anotación definido en la sección previa. A su vez, es fundamental proporcionar formación detallada a los anotadores sobre cómo utilizar el software de manera efectiva en procesos de capacitación continua. El equipo puede necesitar refrescamientos sobre el uso y además pueden generarse nuevas incorporaciones al equipo, por lo cual es útil tener la capacitación estructurada, incluso hasta en un formato autoadministrable. Además, el software debería estar alineado con las especificaciones del manual de anotación, incluyendo la configuración de etiquetas, atajos de teclado, y flujos de trabajo personalizados.Selección del equipo de anotadores
La calidad de las anotaciones depende en gran medida de la competencia y la consistencia del equipo de anotadores. La selección adecuada del equipo es, por lo tanto, un paso crítico en esta fase. Definir criterios claros para la selección de anotadores garantiza que el equipo tenga las habilidades y el conocimiento necesarios para realizar anotaciones precisas. Preferir anotadores con experiencia relevante en el dominio de salud específico del proyecto (por ejemplo, profesionales de la salud, estudiantes avanzados en medicina, técnicos en imágenes médicas).Capacitación del equipo
Implementar un programa de capacitación exhaustivo para preparar a los anotadores para el proceso de anotación. Esto incluye:- Sesiones de entrenamiento inicial: Realizar talleres o seminarios para familiarizar a los anotadores con el manual de anotación y el software de etiquetado.
- Pruebas de competencia: Evaluar las habilidades de los anotadores mediante pruebas prácticas antes de asignarles tareas reales. Pueden utilizarse métodos como los descriptos más adelante en la sección de monitoreo de la calidad de anotaciones.
- Soporte continuo y retroalimentación: Proveer soporte continuo y recursos adicionales para resolver dudas y mejorar las habilidades de anotación a lo largo del proyecto. Es fundamental la buena comunicación mediante canales claros de consulta e intercambio. Muchas de las dudas respecto de cómo aplicar el procedimiento definido en el manual aparecen durante la anotación lo cuál requiere capacidad de respuesta rápida para no entorpecer el trabajo. A su vez deben estar definido el procedimiento para revisar anotaciones con dudas de manera post hoc. Este canal de comunicación además facilita la recuperación de retroalimentación por parte de los anotadores para mejorar el manual, mediante redefinición de las categorías o del procedimiento de anotación, especialmente en casos poco frecuentes.
Mensajes clave de esta fase
- Manual de anotación completo y detallado: Un manual bien desarrollado es esencial para garantizar la consistencia y precisión de las anotaciones. Este debe incluir tanto definiciones conceptuales del target de anotación, así como su operativización mediante el procedimiento de anotación.
- Software de anotación ajustado a las necesidades: seleccionar una herramienta de anotación que se ajuste tanto a las necesidades técnicas del proyecto como al proceso de anotación.
- Equipo de anotadores capacitado y competente: Seleccionar y capacitar un equipo de anotadores con el conocimiento y las habilidades necesarias es crucial para la calidad del dataset. La capacitación debe ser una intervención dentro de un marco de mejora de la calidad.
- Comunicación fluida: Definir canales de comunicación claros con procedimientos especificados respecto a cómo manejar las dudas o errores del manual de anotación.
Deja una respuesta