Alucinaciones en IA generativa

Imagen de un robot que dice que no sabe la respuesta correcta
Compartí en tu redes sociales

La industria de la inteligencia artificial enfrenta un problema que va más allá de las limitaciones técnicas dado que está diseñando sistemas que prefieren mentir antes que admitir ignorancia. Un análisis reciente de OpenAI revela que las famosas «alucinaciones» de los modelos de lenguaje no son errores inevitables, sino el resultado directo de métricas de evaluación fundamentalmente defectuosas (https://www.arxiv.org/abs/2509.04664).

Durante años, se ha medido el éxito de sus modelos de IA generativa usando una métrica aparentemente lógica: la precisión, es decir, el porcentaje de respuestas correctas. Sin embargo, esta aparente simplicidad esconde una trampa. Cuando un modelo no conoce una respuesta, las métricas actuales lo recompensan por adivinar y lo penalizan por ser honesto.

Imagina un examen donde las respuestas incorrectas reciben cero puntos, las correctas reciben puntos completos, pero dejar una pregunta en blanco también recibe cero. ¿Qué estrategia maximiza tu puntuación? Obviamente, adivinar en cada pregunta, incluso cuando no tienes idea de la respuesta. Esto es exactamente lo que está ocurriendo con los modelos de IA actuales.

En evaluaciones recientes usando el benchmark SimpleQA, OpenAI comparó dos enfoques diferentes:

  • GPT-5-thinking-mini (diseñado para ser honesto): 52% de abstenciones, 22% de precisión, 26% de errores
  • o4-mini (optimizado para métricas tradicionales): 1% de abstenciones, 24% de precisión, pero un alarmante 75% de errores

El modelo que más «adivina» obtiene mejores puntuaciones en precisión, aparentando ser superior, pero comete tres veces más errores. Las tablas de clasificación industriales, dominadas por métricas de precisión, presentan al modelo menos confiable como el «ganador».

Esta distorsión no es solo un problema académico. Cuando los sistemas de IA generan respuestas incorrectas con total seguridad, crean riesgos significativos. Un modelo que dice «no lo sé» permite al usuario buscar información adicional o consultar expertos. Un modelo que inventa respuestas convincentes pero falsas puede llevar a decisiones erróneas.

El problema se agrava porque los mecanismos subyacentes de los modelos de lenguaje hacen inevitables ciertos tipos de errores. Durante el entrenamiento, estos sistemas aprenden a predecir la siguiente palabra en millones de textos, pero nunca reciben etiquetas explícitas sobre qué afirmaciones son verdaderas o falsas. Datos arbitrarios como fechas de nacimiento o títulos de tesis específicos son inherentemente impredecibles, llevando inevitablemente a alucinaciones cuando el modelo intenta completar estos patrones.

¿Qué soluciones existen en este escenario?

La solución existe y es técnicamente directa: reformar las métricas de evaluación para penalizar más severamente los errores confiados que las expresiones apropiadas de incertidumbre. Esto incluiría implementar sistemas de puntuación ponderada, dar crédito parcial por abstenciones inteligentes, e integrar métricas de calibración que evalúen qué tan bien los modelos estiman su propia confianza.

Sin embargo, el cambio real requiere que la industria Big tech, que está desarrollando estos modelos de IA, priorice la confiabilidad sobre las puntuaciones de marketing. Mientras las empresas compitan en rankings que recompensan la confianza falsa, seguiremos obteniendo sistemas diseñados para impresionar en benchmarks en lugar de ser genuinamente útiles y honestos.

¿Qué impacto tiene en la salud?

En el ámbito de la salud, la inherente propensión de las IA generativas a alucinar (diseñada por métricas que premian la confianza sobre la veracidad) las convierte en una amenaza para la seguridad del paciente, capaz de generar diagnósticos erróneos, tratamientos peligrosos y desinformación convincente con falsa seguridad.

Este riesgo refuerza la necesidad de evaluarlas y certificarlas como dispositivos médicos, lo que obligaría a implementar salvaguardas esenciales como el abandono de métricas de precisión bruta en favor de sistemas que penalicen las falsedades confiadas y recompensen la transparencia en la incertidumbre, integrando la cuantificación de la confianza, la derivación a médicos y una validación en contextos clínicos reales que aseguren que estas herramientas prioricen la seguridad del paciente y la honestidad.

Ir al contenido