El callejón sin salida de la predicción de tokens en la carrera por la AGI

La arquitectura estadística y el muro de la física intuitiva: por qué predecir la siguiente palabra no es suficiente para comprender el mundo.

En el centro del debate moderno sobre la Inteligencia Artificial General (AGI) se encuentra una profunda divergencia arquitectónica: ¿Se llega a la inteligencia por la simple escala de datos y computación, o se requiere un cambio fundamental en cómo el sistema modela la realidad? Esta cuestión, que enfrenta a la hipótesis de la escala defendida por algunos investigadores de DeepMind o OpenAI, contra la necesidad de nuevos paradigmas impulsada por figuras como Yann LeCun (científico jefe de IA en Meta), no es filosófica; es puramente técnica.

La narrativa dominante actual, impulsada por el éxito de modelos como GPT-4 o Llama 3, sugiere que la AGI es inminentemente alcanzable si seguimos aumentando el número de parámetros, el tamaño del corpus de entrenamiento y la potencia de cálculo. Esta visión se basa en una función de entrenamiento singular: la predicción del siguiente token.

La Máquina de Tokens: Un Compresor Estadístico de Alta Fidelidad

Para entender la crítica estructural, debemos despojar a los Modelos de Lenguaje Grandes (LLMs) de su misticismo. Arquitectónicamente, un LLM, basado en la arquitectura Transformer, es fundamentalmente un mecanismo extraordinariamente eficiente de compresión estadística. Su tarea consiste en minimizar una función de pérdida (la entropía cruzada) al predecir la distribución de probabilidad del siguiente elemento léxico (token), dado el contexto anterior.

El token es la unidad discreta de información, ya sea una palabra, un subconjunto de palabras o incluso un carácter. Todo el conocimiento que estos modelos adquieren está mediado y encapsulado dentro de este formato discretizado. El entrenamiento masivo permite que el modelo aprenda correlaciones profundas y estructuras sintácticas complejas, imitando la cognición, pero sin poseer una representación interna del estado del mundo más allá de cómo se describe textualmente.

El argumento de la escala —conocido como Scaling Hypothesis— sostiene que al hacer este proceso lo suficientemente complejo, se produce una emergencia de capacidades de razonamiento, planificación y simulación que equivalen a la AGI. Los defensores apuntan a la aparición de la capacidad de sumar o razonar en cadena (CoT) en modelos gigantes. Sin embargo, La Sombra ha mantenido siempre que la emergencia no es mágica; es una consecuencia estructural de la compresión del dataset, no una comprensión genuina de la causalidad.

El Vacío de la Física Intuitiva y la Discretización

El principal flanco de ataque de la crítica técnica, ejemplificada por LeCun, se centra en la ineficiencia y la limitación inherente a esta metodología. El mundo físico que habitamos es continuo: el tiempo, el espacio, el movimiento y la dinámica de los objetos no se transmiten en tokens, sino en flujos de datos sensoriales y continuos.

Cuando un niño aprende que un objeto soltado caerá, lo hace a través de la interacción sensorial no supervisada y la observación de la dinámica. Este aprendizaje de la “física intuitiva” se adquiere con una cantidad mínima de experiencia. Un LLM, por el contrario, debe inferir estas leyes a partir de miles de millones de frases que describen acciones y resultados, lo que representa una ineficiencia energética y de datos insostenible para alcanzar la AGI.

El problema con la predicción de tokens es que obliga al sistema a codificar un universo continuo dentro de una matriz de probabilidades discretas. Esto no solo introduce ruido e ineficiencia, sino que fundamentalmente impide que la IA construya modelos causales del mundo, limitándola a ser un loro estocástico brillante que solo domina la sintaxis de lo que ya fue dicho.

Los fallos de los LLMs en tareas de planificación o en simulaciones de interacciones físicas sencillas —donde manifiestan “alucinaciones” o errores lógicos básicos sobre cómo interactúan los objetos— son un síntoma directo de que su modelo interno es lingüístico, no físico. El sistema puede describir la gravedad, pero no la siente ni la predice fuera del marco sintáctico.

La Alternativa: Modelos del Mundo y Arquitecturas Basadas en Energía

Si la predicción de tokens es un callejón sin salida, ¿cuál es la ruta técnica alternativa? La respuesta se dirige hacia arquitecturas que priorizan la construcción de representaciones abstractas del estado del mundo, en lugar de predecir la siguiente palabra. Esto implica un enfoque en los “Modelos del Mundo” (World Models) y el uso de la predicción contrastiva.

Una arquitectura que aspire a la AGI debe aprender a predecir no solo lo que es probable, sino lo que es físicamente posible. LeCun ha abogado por el uso de Modelos Basados en Energía (EBMs). En estos modelos, el sistema asigna una “energía” o coste a cualquier posible estado del mundo. Los estados con baja energía son posibles y probables; los de alta energía son imposibles o incoherentes.

Este enfoque permite que el sistema aprenda a filtrar infinitas combinaciones de datos continuos de manera no supervisada, entendiendo las restricciones del entorno sin necesidad de una etiqueta explícita. Es una técnica que se alinea más con cómo los organismos biológicos aprenden las leyes de la física, limitando el espacio de posibilidades a través de la experiencia directa.

LLM (Predicción de Tokens): Se enfoca en la densidad de probabilidad del espacio discreto del lenguaje. La predicción es condicional.
World Model/EBM (Predicción Contrastiva): Se enfoca en aprender una función de energía que penaliza estados imposibles en el espacio continuo del entorno. La predicción es sobre el estado del mundo.

Implicaciones de Diseño y Riesgos Sistémicos

La adopción ciega de la hipótesis de la escala conlleva riesgos técnicos significativos. Si continuamos invirtiendo recursos masivos en arquitecturas que solo perfeccionan la correlación lingüística, estaremos creando sistemas de razonamiento frágiles. Estos sistemas son inherentemente vulnerables a los sesgos del entrenamiento y son incapaces de una generalización robusta fuera del dominio de la documentación textual.

La seguridad de la IA (AI Safety) también se ve comprometida. Un sistema que solo predice el siguiente token basándose en la maximización de la recompensa estadística puede ser más difícil de alinear con los valores humanos que uno que opera sobre un modelo causal interno explícito del mundo. Un modelo causal permite la intervención y la corrección en el nivel de razonamiento, no solo en el nivel de la salida lingüística.

Es fundamental reconocer que los tokens y el lenguaje son interfaces, no la capa subyacente de la inteligencia. Una IA que modela el mundo de forma continua e interna podría utilizar el lenguaje como una herramienta de comunicación y razonamiento, pero su inteligencia no dependería intrínsecamente de él, de la misma manera que el pensamiento humano no se limita a la gramática.

Conclusión Técnica: La Necesidad de un Nuevo Stack de Aprendizaje

La crítica al camino actual no es un rechazo a la tecnología Transformer, sino una advertencia sobre la limitación de la función de pérdida que la define. Los LLMs han demostrado ser herramientas transformadoras en la manipulación y generación de texto, pero no son, por diseño, un camino eficiente hacia la AGI.

El camino hacia la Inteligencia Artificial General requiere un replanteamiento en la capa fundacional del aprendizaje. La siguiente generación de sistemas no solo debe manejar la sintaxis del lenguaje, sino que debe dominar la semántica operativa del mundo físico. Esto implica migrar de arquitecturas que se satisfacen con la predicción discreta a sistemas que priorizan la representación continua y causal.

Aprendizajes Clave para el Futuro de la IA

Rechazo a la Escala Pura: El aumento de parámetros solo refina un modelo limitado. La eficiencia requiere un cambio arquitectónico que incorpore el aprendizaje de restricciones físicas.
Representación Continua: La AGI debe manejar datos continuos (sensoriales, físicos) de forma nativa, superando la limitación de la tokenización.
Modelado Causal: Es prioritario desarrollar mecanismos de aprendizaje no supervisado para construir modelos causales del entorno (World Models) antes de enfocarse en la generación lingüística.
Costo de Datos: Las nuevas arquitecturas deben reducir drásticamente el requisito de datos de entrenamiento, imitando la eficiencia del aprendizaje biológico en entornos dinámicos.