Anthropic lanza dos modelos de IA clase Mythos con salvaguardas de seguridad

Anthropic publicó el 9 de junio dos modelos de IA clase Mythos, incluida la primera versión ampliamente disponible, tras desarrollar salvaguardas para bloquear respuestas en ciberseguridad y biología, dominios que la empresa consideraba anteriormente demasiado peligrosos para su lanzamiento público.

"Fable 5 muestra un rendimiento excepcional en ingeniería de software, trabajo de conocimiento y visión, y su ventaja sobre otros modelos crece a medida que las tareas se vuelven más largas y complejas", afirmó Anthropic en una publicación de blog.

Los modelos — Claude Fable 5 para disponibilidad general y Claude Mythos 5 para organizaciones aprobadas — están construidos sobre la misma tecnología subyacente. Fable 5 supera a Claude Opus 4.8 en más del 10% en varios benchmarks, según la compañía. El precio se fijó en 10 USD por millón de tokens de entrada y 50 USD por millón de tokens de salida, el doble de la tarifa de Opus 4.8 pero la mitad del costo del nivel Mythos Preview.

El lanzamiento ocurre dos meses después de que Anthropic restringiera el acceso a su modelo Mythos Preview, citando riesgos de que una IA altamente capaz pudiera ser mal utilizada. Desde entonces, la empresa ha presentado de forma confidencial una solicitud de oferta pública inicial, y el lanzamiento más amplio señala confianza en que sus mecanismos de seguridad — probados en ejercicios de red team internos y externos — pueden resistir a adversarios motivados.

La Trayectoria de Automejora

La decisión de Anthropic de ampliar el acceso sigue a una publicación del 4 de junio en la que los investigadores Marina Favaro y el cofundador Jack Clark advirtieron que los sistemas de IA se están acercando a la "automejora recursiva", una etapa en la que los modelos pueden mejorarse a sí mismos con una supervisión humana mínima. La empresa reveló datos internos que muestran que agentes impulsados por Claude completaron un proyecto abierto de investigación en seguridad de IA en abril de 2026, donde los investigadores humanos recuperaron aproximadamente el 23% de la brecha de rendimiento en una semana, mientras que los agentes de Claude recuperaron el 97%.

Claude Mythos Preview, el predecesor de los modelos recién lanzados, logró una aceleración de 52 veces sobre el código base en tareas de optimización, donde un investigador humano experto necesitaría de cuatro a ocho horas para lograr una mejora de 4 veces. Claude ahora escribe aproximadamente el 80% del nuevo código de producción de Anthropic, y las tasas de éxito en problemas complejos de ingeniería aumentaron al 76% en mayo de 2026, según la empresa.

Los horizontes de tareas que Claude puede manejar de manera confiable se han duplicado aproximadamente cada cuatro meses, pasando de tareas de minutos a principios de 2024 a tareas de 12 horas hoy. Anthropic proyecta tareas autónomas de una semana para 2027.

Salvaguardas vs. Adversarios

Anthropic indicó que Fable 5 fue sometido a extensos ejercicios de red team internos y externos diseñados para identificar vulnerabilidades comunes de IA, incluidos intentos de jailbreak. Las pruebas no descubrieron ninguna técnica de jailbreak "universal" conocida capaz de eludir consistentemente las salvaguardas del modelo, según la compañía. En las pruebas, el 95% de las sesiones de Fable se ejecutaron completamente con respuestas de Fable sin recurrir a Opus 4.8.

No obstante, la empresa reconoció que los investigadores de ciberseguridad han encontrado históricamente formas de eludir los mecanismos de seguridad en modelos de IA anteriores. "El impulso de las capacidades de nivel Mythos es valioso para muchos adversarios — por ejemplo, aquellos que podrían obtener ganancias financieras de ciberataques — y por lo tanto esperamos que estén motivados para intentar eludir nuestras medidas de seguridad", dijo Anthropic.

Claude Mythos 5, disponible para organizaciones ya aprobadas a través de la iniciativa Project Glasswing de Anthropic, ofrece el mismo modelo subyacente con salvaguardas levantadas en algunas áreas. La compañía dijo que planea expandir el acceso con el tiempo a través de un programa de acceso confiable más sistemático.

Implicaciones Competitivas y para Inversores

El lanzamiento posiciona a Anthropic para competir más directamente con OpenAI y Google en el mercado de IA empresarial, donde los precios de inferencia y las garantías de seguridad son diferenciadores clave. Los 50 USD por millón de tokens de salida de Fable 5 lo colocan en una prima frente a muchos modelos disponibles públicamente, lo que refleja la apuesta de la compañía de que las empresas pagarán más por modelos con salvaguardas de seguridad más sólidas.

La presentación confidencial de IPO de Anthropic, reportada en las últimas semanas, añade presión para demostrar un camino claro hacia el crecimiento de ingresos. Un cliente empresarial no identificado acumuló aproximadamente 500 millones de USD en un solo mes en Claude debido al uso sin restricciones, según un informe anterior de The Dallas Express, lo que subraya tanto la demanda como los riesgos de costo asociados con sistemas de IA potentes.

Ethan Mollick, profesor de la Wharton School de la Universidad de Pensilvania, dijo que, si bien algunos críticos ven los mensajes de seguridad de Anthropic como publicidad, muchas personas dentro de la empresa son "verdaderos creyentes", según el Wall Street Journal. Su libro sobre IA, "Co-Existence", se publicará en otoño.

Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.