🧩 Lost in Conversation: los LLMs se pierden cuando la charla se alarga

📡 Atención, desarrolladores y fanáticos del prompt perfecto: un nuevo estudio de Microsoft y Salesforce acaba de poner en jaque a los grandes modelos de lenguaje. Bajo el título provocador “LLMs Get Lost In Multi-Turn Conversation”, el paper muestra que incluso los modelos más avanzados pierden el rumbo cuando la conversación se fragmenta en múltiples turnos.

Sí: los LLMs se desorientan. Y no es poco.

🔍 ¿Qué revela el estudio?

Tras analizar más de 200.000 conversaciones simuladas, los investigadores observaron que los modelos actuales —tanto cerrados como open source— reducen su precisión en un 39% cuando se enfrentan a instrucciones distribuidas en varios mensajes en lugar de recibirlas de golpe.

👎 No es un simple olvido. Es una tendencia sistemática:

Pierden aptitud: pequeñas bajadas de rendimiento.
Ganan en terquedad: se aferran a suposiciones erróneas construidas con información parcial.

A esto le han llamado “Lost in Conversation”, y no es poesía: es un bug con nombre propio.

🛠️ ¿Cómo lo probaron?

El estudio introduce una técnica llamada sharded simulation:

Dividen una tarea completa en trozos pequeños y la simulan en varias rondas de conversación, imitando cómo una persona podría dar instrucciones paso a paso a un asistente de IA.

Los modelos fueron evaluados en 6 tareas distintas:

Resolución de problemas matemáticos
Llamadas a API
Resumen de datos
SQL y consultas a bases de datos
Generación de texto
Generación de código

Y el patrón se repite: cuanto más fragmentada la interacción, más se “pierden”.

🤖 ¿Qué significa esto para el futuro de los asistentes IA?

Este descubrimiento plantea serias preguntas sobre la fiabilidad de los LLMs como asistentes de conversación real. En la vida diaria, las instrucciones rara vez son completas y perfectas desde el minuto uno. Corregimos, añadimos contexto, cambiamos de opinión.

Y ahí es donde los modelos actuales flaquean.

🔁 En lugar de adaptarse y corregirse, persisten en errores iniciales y muestran una sorprendente rigidez. Algo así como un GPS que no recalcula.

💡 ¿Y ahora qué?

La buena noticia: los autores han publicado su dataset y código en GitHub →
👉 Lost in Conversation Repo

Este benchmark servirá para mejorar la capacidad adaptativa de los modelos, abrir nuevas líneas de investigación y —con suerte— acercarnos a LLMs que no solo respondan bien, sino que conversen con resiliencia y contexto.

📣 Desde la Sombra, donde las palabras importan… y los silencios también.

Etiquetas

# Benchmark # Conversaciones # Evaluación IA # LLMs # Microsoft Research # Multiturn # Salesforce AI

Redacción Sombra Radio

Artículos creados por el equipo editorial de Sombra Radio, con la colaboración de herramientas de inteligencia artificial. Supervisado y editado por Sandra Tormo Britapaja, fundadora del medio. En Sombra Radio exploramos la intersección entre tecnología, inteligencia artificial y cultura contemporánea con mirada crítica e independiente.

Artículos: 441