Anthropic y la brecha de Claude Mythos: cómo un error humano expuso su IA más peligrosa

La seguridad es un castillo de naipes donde un simple descuido tumba la narrativa de control.

El secreto peor guardado de la seguridad en IA

Hoy es 23 de abril de 2026, y si algo hemos aprendido en los últimos tres años es que el prestigio en el mundo de la inteligencia artificial se construye con código, pero se destruye con un descuido. Anthropic, la empresa que se presentaba a sí misma como la ‘niña buena’ y responsable de Silicon Valley, acaba de recibir un golpe de realidad que ha dejado a sus ingenieros buscando dónde esconderse. No fue un ciberataque de película, ni un grupo de hackers estatales con presupuestos millonarios. Fue algo mucho más mundano y, por lo tanto, mucho más humillante.

Hace apenas unos días, el 15 de abril de 2026, saltaron las alarmas: Claude Mythos, un modelo que la propia compañía había clasificado como ‘demasiado peligroso para el público’, terminó en manos de usuarios no autorizados. Imagina que diseñas una caja fuerte impenetrable para guardar el secreto de la eterna juventud, pero te olvidas de cerrar la puerta con llave porque pensaste que nadie sabría dónde estaba la caja. Eso es, esencialmente, lo que ha ocurrido aquí.

¿Qué era exactamente Claude Mythos?

Para entender la magnitud del desastre, hay que saber qué es Mythos. En el ecosistema de Anthropic, mientras que Claude 3.5 o Claude 4 (lanzado a principios de este año) son herramientas para escribir correos o programar, Mythos era otra cosa. Era un modelo ‘redlined’ (con líneas rojas). Esto significa que tenía capacidades avanzadas en ciberseguridad, creación de exploits y análisis de vulnerabilidades que Anthropic consideraba un riesgo para la seguridad nacional.

Me puse a investigar los reportes internos y la sensación es de incredulidad. Este modelo estaba diseñado para ayudar a los equipos de defensa a anticipar ataques, pero sus capacidades ofensivas eran tan potentes que decidieron mantenerlo bajo siete llaves. O eso decían. La ironía aquí es tan espesa que se puede cortar con un cuchillo: el modelo experto en detectar brechas de seguridad fue expuesto por una brecha de seguridad básica.

El error: ni hackers rusos ni malware complejo

¿Cómo entraron? Aquí es donde la historia pasa de ser un thriller tecnológico a una comedia de enredos. No hubo una explotación técnica sofisticada de los servidores de Anthropic. El acceso se produjo tras una filtración de datos en uno de sus socios estratégicos de etiquetado de datos. A partir de esa filtración, algunos usuarios simplemente usaron el sentido común y ‘adivinaron’ las direcciones de acceso basándose en la información filtrada.

Esto es como si, después de instalar cámaras, sensores de movimiento y guardias armados, un extraño entra en tu casa porque el jardinero dejó una copia de la llave con una etiqueta que decía ‘Entrada Principal’. El fallo no estuvo en el modelo de IA, sino en la cadena de suministro y en la falta de monitoreo interno. Me hace pensar en cuántas veces confiamos ciegamente en las grandes corporaciones cuando nos dicen que ‘todo está bajo control’.

La seguridad no es un producto que compras, es un proceso que mantienes cada segundo del día.

La paradoja de la seguridad en la cadena de suministro

Este incidente pone el foco en un problema que vengo comentando en SombraRadio desde hace tiempo: el ecosistema de la IA es una red compleja de dependencias. Anthropic puede tener los mejores protocolos del mundo en sus oficinas de San Francisco, pero si el partner que limpia sus datos o entrena sus modelos en la nube no tiene el mismo rigor, el riesgo es total.

Es el efecto dominó. En este caso, el eslabón débil fue un socio externo. ¿Por qué esto nos importa a nosotros, los que usamos la IA para resumir textos o generar imágenes? Porque si una empresa que presume de ser el líder ético y seguro de la industria no puede controlar quién accede a sus modelos más sensibles, ¿qué garantías tenemos sobre la privacidad de nuestros propios datos en los modelos comerciales?

¿Por qué esto te afecta a ti?

Quizás pienses: ‘Bueno, yo no soy un hacker, no me importa que Mythos ande suelto’. Pero el problema es sistémico. Si las capacidades de ciberataque automatizado de Mythos caen en manos equivocadas, podríamos ver una nueva ola de estafas, ataques de phishing y malware que hoy ni siquiera podemos imaginar. Es como si alguien hubiera filtrado los planos de la red eléctrica de una ciudad y los manuales para sabotearla.

Además, este evento rompe la confianza. Durante 2025, Anthropic gastó millones en campañas de marketing asegurando que su enfoque de ‘IA Constitucional’ era la única forma segura de avanzar. Hoy, esa narrativa parece un poco vacía. Esto nos enseña que, en tecnología, el ‘hype’ o la publicidad exagerada siempre termina chocando con la realidad operativa.

Lecciones para el futuro: un checklist de realidad

Después de trastear con las implicaciones de esta noticia, he sacado algunas conclusiones que todos, desde desarrolladores hasta usuarios finales, deberíamos aplicar en nuestro día a día digital:

No confíes en el marketing de seguridad: Que una empresa diga que es segura no significa que lo sea en la práctica. Busca siempre auditorías externas.
Vigila tus eslabones débiles: Si usas herramientas de IA para tu trabajo, revisa qué permisos concedes a terceros. La mayoría de las filtraciones ocurren por ‘socios’ o apps conectadas.
La seguridad por oscuridad no funciona: Intentar ocultar algo simplemente ‘no publicándolo’ mientras mantienes accesos fáciles es una receta para el desastre.
Exige transparencia: Como usuarios, tenemos el poder de pedir a estas empresas que expliquen cómo protegen la cadena de suministro, no solo el producto final.

Al final del día, lo de Anthropic es una cura de humildad necesaria para toda la industria. La IA avanza a pasos agigantados, pero la ciberseguridad básica sigue siendo la misma asignatura pendiente de siempre. Esperemos que para el próximo lanzamiento importante, alguien se acuerde de cerrar la puerta con algo más que un buen deseo.