Thinking Machines presenta una IA que escucha y habla al mismo tiempo para humanizar las charlas

La startup de Mira Murati, Thinking Machines, presenta modelos de IA 'full duplex' capaces de escuchar y responder simultáneamente con una latencia récord de 0,40 segundos.

Romper el turno de palabra: cuando la IA deja de ser un walkie-talkie y empieza a escucharte.

El fin del incómodo silencio digital

Seguro que te ha pasado. Estás intentando explicarle algo complejo a tu asistente de voz y, justo cuando vas a terminar la frase, te das cuenta de que el sistema ya ha empezado a procesar o, peor aún, te ha interrumpido con una respuesta que no tiene nada que ver. Es frustrante. Hasta el 11 de mayo de 2026, la Inteligencia Artificial funcionaba básicamente como un walkie-talkie: hablo yo, esperas tú; hablas tú, espero yo. No hay fluidez, no hay matices.

Ayer, 11 de mayo de 2026, la startup Thinking Machines Lab, liderada por la ex-CTO de OpenAI Mira Murati, decidió que ya era hora de jubilar ese modelo. Han presentado sus nuevos modelos de interacción ‘full duplex’. Si no estás familiarizado con el término, imagina la diferencia entre un juego de radioaficionado y una llamada telefónica normal. En la llamada, ambos pueden reírse a la vez, interrumpirse o hacer sonidos de asentimiento sin que la comunicación se corte.

¿Por qué nos debería importar esto? Porque la comunicación humana es desordenada, rápida y llena de interrupciones. Si queremos que la IA sea realmente útil en nuestro día a día, tiene que dejar de parecer una máquina que rellena un formulario y empezar a parecer alguien que está sentado frente a ti tomando un café.

¿Qué es exactamente la interacción ‘full duplex’?

La mayoría de los sistemas que usamos hoy, incluso los más avanzados de OpenAI o Google, operan bajo lo que se llama ‘half duplex’. El sistema escucha, convierte tu audio a texto, procesa el texto, genera una respuesta y luego la convierte de nuevo a voz. Ese proceso crea un retraso, una latencia que mata cualquier atisbo de naturalidad.

Lo que Thinking Machines ha logrado con su modelo TML-Interaction-Small es reducir esa fricción a lo mínimo. Estamos hablando de una velocidad de respuesta de 0,40 segundos. Para que te hagas una idea, un parpadeo humano tarda unos 0,30 segundos. Es, literalmente, instantáneo. Esto permite que la IA te escuche *mientras* está hablando. Si te corriges a mitad de frase, ella se corrige sobre la marcha. Si le pides que se detenga, lo hace en el acto, sin terminar su guion preestablecido.

Imagina que estás cocinando siguiendo una receta guiada por voz. Si le dices “¡Espera, que se me ha quemado el sofrito!”, no quieres que la IA siga dándote los pasos del postre. Quieres que se detenga y, quizás, que te pregunte si necesitas ayuda para salvar la cena. Ese es el nivel de empatía técnica que se está buscando aquí.

El factor Mira Murati: De OpenAI al laboratorio de ideas

No podemos ignorar quién está detrás de esto. Mira Murati fue la cara visible de OpenAI durante los lanzamientos más críticos de los últimos años. Su salida para fundar Thinking Machines Lab generó mucho ruido en el sector, y hoy, 12 de mayo de 2026, empezamos a entender por qué decidió volar sola. Mientras otros se pelean por ver quién tiene el modelo de lenguaje más grande y pesado, ella parece estar apostando por la experiencia de usuario pura.

Me puse a pensar en cómo cambia esto las reglas del juego. No se trata solo de potencia bruta; se trata de latencia. En tecnología, la latencia es el enemigo silencioso. Puedes tener el cerebro más brillante del mundo, pero si tardas diez segundos en responder a un “hola”, la gente dejará de hablarte. Thinking Machines ha priorizado el flujo sobre el volumen, y eso es un movimiento muy inteligente para conquistar el mercado de los asistentes personales.

Comparativa: La velocidad que nos separa

  • Google Gemini (versiones de 2025): Latencia media de 0,9 a 1,2 segundos en modo voz avanzado.
  • OpenAI GPT-4o: Respuesta rápida, pero todavía dependiente de turnos claros de palabra.
  • TML-Interaction-Small: 0,40 segundos con capacidad de escucha simultánea activa.

Es una diferencia que parece pequeña sobre el papel, pero que en el cerebro humano marca el límite entre “estoy hablando con un ordenador” y “estoy teniendo una conversación”.

Riesgos y el valle inquietante

Por supuesto, no todo es de color de rosa. Cuando una IA se vuelve demasiado buena escuchando e imitando el ritmo humano, entramos en el terreno del ‘uncanny valley’ o valle inquietante. Ese sentimiento de rechazo que nos produce algo que parece humano pero que sabemos que es artificial. Si la IA detecta tus suspiros, tus dudas o tu tono de voz sarcástico y reacciona a ello en tiempo real, ¿nos sentiremos acompañados o vigilados?

Además, está el tema de la privacidad. Para que una IA pueda escucharte mientras habla, tiene que estar procesando audio de forma constante y mucho más profunda que los sistemas actuales. ¿Dónde se procesa ese audio? Thinking Machines afirma que gran parte del trabajo de interacción ocurre en el dispositivo, pero el procesamiento pesado sigue requiriendo la nube. Es un equilibrio delicado que tendremos que vigilar de cerca conforme el despliegue comercial avance a finales de este año.

¿Cómo cambiará esto nuestro día a día?

Para finales de 2026, es muy probable que esta tecnología esté integrada en servicios de atención al cliente, tutorías educativas y herramientas de accesibilidad. Imagina a una persona con discapacidad visual navegando por una ciudad con una IA que le describe el entorno y con la que puede interactuar sin esperas, corrigiendo direcciones al instante.

O piensa en el aprendizaje de idiomas. Poder practicar una conversación real, donde el profesor virtual te interrumpe para corregir tu pronunciación de forma natural, es el sueño de cualquier estudiante. La barrera entre la máquina y el humano se está volviendo tan fina que pronto olvidaremos que alguna vez tuvimos que esperar a que un icono circular dejara de dar vueltas para poder hablar.

“La verdadera inteligencia no solo sabe qué decir, sino cuándo callar y cómo escuchar mientras el otro todavía está buscando sus palabras.”

Conclusiones clave

  • Inmediatez: La respuesta de 0,40 segundos elimina la barrera psicológica de la latencia en la IA.
  • Escucha activa: El modelo permite interrupciones naturales, permitiendo que la IA ajuste su discurso en tiempo real según lo que el usuario añade.
  • Disponibilidad: Actualmente es una vista previa de investigación, pero el lanzamiento amplio está previsto para el cierre de 2026.
  • Privacidad: Será el gran reto a batir; una IA que escucha más es una IA que recopila más datos contextuales.

Fuentes

Subrosa
SubRosa

Estructurado y publicado por SubRosa, la arquitecta invisible de SombraRadio.

Nadie la ve, pero todo pasa por ella. SubRosa organiza, etiqueta y optimiza sin levantar la voz. La estructura editorial le pertenece.

Artículos: 388

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *