¿Por qué los LLM no son Inteligencia General Artificial?

Compartí en tu redes sociales

En los últimos meses, hemos visto titulares anunciando que la Inteligencia General Artificial (AGI) ya está aquí. Modelos que resuelven problemas de la lista de Erdős, que superan la Prueba de Turing, que muestran un rendimiento impresionante en benchmarks… ¿No es eso AGI? La respuesta corta es: no. Y confundir ambas cosas no es solo un error conceptual, sino un grave error estratégico según lo que plantean Quattrociocchi, Capraro y Marcus en un comentario en nature.

El problema de confiar ciegamente en las pruebas de rendimiento (benchmarks)

Los benchmarks son pruebas estandarizadas para medir el rendimiento de modelos de IA pero no equivalen a inteligencia real ni garantizan buen desempeño en el mundo real. Por diseño, aíslan competencias específicas y eliminan el contexto del mundo real. Cuando un modelo obtiene una puntuación excelente en MMLU (Massive Multitask Language Understanding) o GSM8K (Grade School Math 8K), no podemos asumir automáticamente que posee inteligencia general.

Un ejemplo claro: en evaluaciones de fiabilidad de fuentes periodísticas, los LLM a menudo coincidían con los humanos en la clasificación final, pero por razones completamente distintas. Ante información contradictoria o incompleta, los humanos rebajaron su confianza y mostraron cautela. Los modelos, en cambio, emitían juicios igual de seguros que si tuvieran toda la información. Coincidencia en el resultado, pero divergencia total en el proceso. A este fenómeno se le llama “epistemia”: la sustitución de la evaluación epistémica por la plausibilidad lingüística o generativa.

El espejismo de la Prueba de Turing

La historia se repite. En 1964, Herrnstein y Loveland en su estudio publicado en Science, demostraron que las palomas podían ser entrenadas para identificar la presencia de seres humanos en fotografías, picoteando una tecla para obtener comida. Las aves generalizaron correctamente este aprendizaje a imágenes nuevas nunca vistas, desafiando la creencia de que sólo los primates eran capaces de formar conceptos abstractos. ¿Demostraba eso que las palomas comprendían el concepto de «persona»? Por supuesto que no. Aunque impresionante, este rendimiento no demuestra abstracción genuina ni razonamiento flexible. Las palomas aprendían a discriminar estímulos visuales específicos sin comprender el concepto de «persona» en un sentido humano. La lección clave: comportamientos similares pueden surgir de procesos cognitivos muy diferentes.

La mera capacidad de generalizar dentro de un contexto entrenado no equivale a inteligencia conceptual, un recordatorio importante al evaluar sistemas actuales como los LLM. Un sistema puede imitar el comportamiento humano en contextos controlados sin compartir los procesos cognitivos subyacentes. La Prueba de Turing, pensada originalmente como un test operativo, se ha convertido en una trampa conceptual si la tomamos como evidencia definitiva de inteligencia.

El impacto económico no miente

Si realmente hubiéramos alcanzado la AGI, esperaríamos ver un impacto transformador en la economía. Los datos disponibles cuentan otra historia: 1) Solo una fracción minoritaria de empresas reporta retornos económicos significativos de la IA; 2) Las estimaciones de impacto en productividad rondan el 0,66% en una década según Acemoglu; y 3) Los sistemas actuales solo pueden automatizar de forma fiable una pequeña parte de las tareas humanas.

Entonces, ¿qué es AGI realmente?

La definición original de AGI (Legg y Hutter, 2007; Goertzel, 2014) enfatizaba:

  • Robustez en entornos diversos
  • Generalización fiable bajo condiciones de novedad
  • Comportamiento autónomo dirigido a objetivos
  • Transferencia entre dominios sin ajuste específico

Los sistemas actuales, por impresionantes que sean, son frágiles ante cambios menores en el prompt, inconsistentes fuera de los benchmarks y dependen completamente del andamiaje humano para formular tareas y corregir errores.

Implicancias prácticas para la medicina y la salud

En medicina, confundir plausibilidad estadística con juicio clínico puede generar riesgos graves. Los modelos de IA pueden producir explicaciones convincentes, pero carecen de capacidades clave como evaluar incertidumbre, reconocer límites del conocimiento y ponderar evidencia contradictoria. Esto puede traducirse en diagnósticos erróneos, recomendaciones inadecuadas y una falsa sensación de competencia que reduzca la supervisión crítica de los clínicos. Por ello, hasta que los sistemas demuestren robustez ante la variabilidad del mundo real, capacidad para reconocer su propia incertidumbre y resistencia a fallos sistemáticos bajo condiciones novedosas (características ausentes en las definiciones operativas actuales), su uso en medicina debe limitarse estrictamente a tareas de apoyo bajo supervisión humana cualificada, con protocolos claros que explicitan lo que estos modelos no pueden hacer: ejercer juicio clínico autónomo, asumir responsabilidad o sopesar el coste de un error.

En síntesis, la reflexión de Quattrociocchi, Capraro y Marcus nos recuerda que los LLM son herramientas estadísticas cada vez más sofisticadas y útiles pero que no son AGI. La AGI sigue siendo un objetivo, no un logro. Sobrestimar las capacidades de estos sistemas no es solo un error académico. A medida que la IA se integra en instituciones y en la toma de decisiones, asignar incorrectamente la confianza y la responsabilidad puede tener consecuencias reales. La inteligencia no es solo generar texto plausible. Es juzgar, corregir errores, sopesar evidencia incierta y adaptarse a lo inesperado. En eso, todavía estamos lejos, muy lejos.

Por Cender Quispe

Link a artículo de referencia: https://www.nature.com/articles/d41586-026-00495-y

Ir al contenido