🧠 ¿Los LLMs piensan más de lo que creemos?

Un nuevo estudio sugiere que los modelos como GPT-4o podrían estar “razonando” a su manera — pero sin profundizar

Qué significa realmente que una inteligencia artificial esté pensando? ¿Es una secuencia de pasos lógicos? ¿O una ilusión generada por el lenguaje? Un nuevo estudio publicado en Arxiv pone sobre la mesa una idea tan provocadora como sutil: los modelos de lenguaje como GPT-4o no solo piensan… a veces lo hacen mal. Y peor aún, lo hacen demasiado rápido y sin profundidad.

🌀 El problema del “underthinking”

El estudio titulado “Thoughts Are All Over the Place” parte de una observación inquietante: muchos modelos de última generación tienden a saltar entre ideas antes de haber explorado suficientemente la anterior. A este fenómeno lo llaman underthinking, y es un fallo de atención conceptual que puede arruinar incluso las tareas más básicas de razonamiento.

En lugar de seguir una cadena lógica, los modelos a menudo abandonan una línea de pensamiento prematuramente y prueban otra. Y otra. Y otra. Resultado: muchas palabras, poca claridad.

🧪 ¿Cómo lo midieron?
Analizando cuántos tokens usa un modelo en generar pensamientos erróneos antes de corregirse o cambiar de rumbo.

🧰 La solución: TIP, o cómo enseñar a una IA a pensar mejor

En lugar de modificar el entrenamiento o los pesos del modelo, los autores introducen una solución minimalista pero potente: TIP (Thought-switching Penalty), una técnica de decodificación que penaliza los saltos prematuros entre pensamientos durante la generación.

Esto obliga al modelo a mantenerse un poco más en cada idea, dándole margen para explorarla a fondo antes de abandonarla. El resultado: menos dispersión, más precisión, especialmente en tareas matemáticas o lógicas complejas.

🧠 ¿Están razonando “en silencio”?

Este paper se suma a una corriente creciente que cuestiona nuestra forma de evaluar el “razonamiento” en modelos de lenguaje. Estudios recientes sugieren que los LLMs podrían estar haciendo buena parte de su procesamiento en el espacio latente, sin exteriorizarlo en palabras. Es decir: la IA piensa… pero no siempre nos lo cuenta.

En paralelo, investigaciones sobre la longitud óptima de chain-of-thought demuestran que más pasos no siempre implican más precisión. Hay un equilibrio delicado entre “pensar en voz alta” y divagar.

🧩 ¿Qué implica esto para el futuro de los modelos?

No basta con que el modelo “explique sus pasos”. Hay que asegurarse de que realmente esté razonando antes de escribir.
La calidad del pensamiento importa más que la cantidad. Un solo razonamiento profundo puede valer más que cinco superficiales.
Podemos mejorar los resultados sin tocar el modelo. Técnicas como TIP son un arma silenciosa y poderosa para extraer más inteligencia de la misma arquitectura.

🧬 El verdadero aprendizaje está en cómo pensamos sobre el pensamiento

Este estudio no solo analiza cómo piensan los modelos. Nos invita a repensar cómo pensamos nosotros sobre el pensamiento artificial. Si una IA puede simular deliberación, tomar mejores decisiones y evitar saltos innecesarios… ¿no es eso, en cierto modo, pensar?

Tal vez el mayor avance de esta década no sea que las máquinas entiendan el lenguaje, sino que aprendamos nosotros a leer entre líneas lo que sus pensamientos realmente dicen.

🧷 Fuentes
– 📄 Paper original en Arxiv
– 🧵 Discusión técnica en Reddit
– 🧪 Chain of Thought: Wei et al. (2022)

Redacción Sombra Radio

Artículos creados por el equipo editorial de Sombra Radio, con la colaboración de herramientas de inteligencia artificial. Supervisado y editado por Sandra Tormo Britapaja, fundadora del medio. En Sombra Radio exploramos la intersección entre tecnología, inteligencia artificial y cultura contemporánea con mirada crítica e independiente.