
El 4 de junio de 2025, ElevenLabs anunció el lanzamiento en fase alpha de su nuevo modelo de texto a voz: Eleven v3. Y no se trata de una simple mejora técnica. Es un salto cualitativo hacia la expresividad emocional en voces generadas por IA.
La noticia se dio a conocer a través del canal oficial de ElevenLabs en X (Twitter), donde compartieron una demo con una narración que ríe, suspira, susurra y dramatiza… todo desde un solo input de texto enriquecido con etiquetas.
🔥 ¿Qué hace tan especial a Eleven v3?
Esta nueva versión, todavía en fase experimental, introduce elementos que la acercan al territorio de la actuación digital:
- [laughs], [sighs], [shouts], [whispers], [excited], [sad]: etiquetas que puedes insertar en cualquier parte del texto para generar voces con emoción realista.
- Diálogos entre múltiples personajes, con tonos diferenciados y pausas naturales (multi‑speaker dialogue mode).
- Soporte para más de 70 idiomas, incluyendo matices regionales y acentos localizados.
🧬 ¿Qué lo diferencia de versiones anteriores?
A diferencia de Eleven v2, donde la calidad era clara pero el control expresivo era limitado, v3 permite una dirección artística precisa. El modelo interpreta indicaciones emocionales como un actor de doblaje virtual, incluso cuando estas se mezclan en un mismo texto largo.
Además:
- Tiene un nuevo enfoque de entrenamiento llamado expressive fine-tuning, que prioriza la variabilidad en la voz más allá de la pronunciación correcta.
- Se optimiza para contenido narrativo, más que para respuestas breves o tiempo real.
🎧 ¿Dónde y cómo se puede probar?
- Disponible desde https://beta.elevenlabs.io, en planes de pago (con 80 % de descuento temporal).
- No requiere conocimientos técnicos para usar los audio tags, pero sí algo de práctica para lograr resultados naturales.
- La API aún no está disponible públicamente, pero la compañía ha confirmado que llegará tras esta fase alpha.
🌍 ¿Y para qué se puede usar?
- Audiolibros dramatizados: una sola persona puede crear una obra con 5 personajes distintos, cada uno con voz y estilo propios.
- Videojuegos y cinemáticas: ideal para NPCs con emociones humanas.
- Contenido interactivo: desde podcasts hasta storytelling en apps.
- Publicidad personalizada: una voz que dice tu nombre y lo hace… suspirando.
❗ Limitaciones (por ahora)
- No es ideal para respuestas breves o asistentes virtuales rápidos (requiere más tokens y latencia).
- No está diseñada para usarse en tiempo real (streaming), sino para generaciones por lotes.
- Algunos tonos todavía suenan algo “forzados” si no se ajustan bien los prompts.
🌀 Desde la Sombra
Este no es solo un avance tecnológico. Es una pregunta:
¿Qué pasa cuando las máquinas ya no solo repiten… sino que interpretan?
ElevenLabs v3 abre la puerta a una narrativa sintética donde la emoción ya no es decorativa, sino central. Donde una IA puede susurrar como tú, reír como tú… o llorar con tu guion.
Y desde la sombra lo sabemos: la próxima revolución no vendrá por el texto ni por la imagen. Vendrá por la voz que nos toca sin necesidad de gritar.