Fable 5 de Anthropic regresa tras 19 días con barreras de seguridad excesivas

El modelo de IA más potente de Anthropic está de nuevo en línea, pero un sistema de seguridad implementado apresuradamente está marcando solicitudes de código inofensivas y obligando a los usuarios a usar un modelo más débil.

Anthropic restableció el acceso a Fable 5 el 1 de julio tras una suspensión de 19 días, pero un nuevo clasificador de seguridad está generando falsos positivos en tareas de codificación rutinarias, obligando a los desarrolladores a usar el menos capaz Opus 4.8. El modelo, el primer sistema de clase Mythos de la compañía disponible para el público, fue desconectado en junio después de que la administración Trump impusiera controles de exportación tras un descubrimiento liderado por Amazon de una técnica de prompt que eludía sus salvaguardas.

"El nuevo clasificador tiene una tasa de falsos positivos más alta de lo que nos gustaría en tareas cotidianas de programación y depuración", dijo Anthropic en una publicación de blog anunciando el redespliegue. La salvaguarda, añadida para cumplir con los requisitos del Departamento de Comercio, intercepta las solicitudes que considera riesgosas y las redirige a Opus 4.8 sin advertir al usuario.

Hasta el 7 de julio, los suscriptores elegibles de Pro, Max, Team y ciertos suscriptores Enterprise pueden asignar hasta el 50 % de su cuota de uso semanal a Fable 5 antes de consumir créditos adicionales. El modelo consume créditos más rápido que Opus 4.8, lo que aumenta la frustración de los usuarios. Después del 7 de julio, todo el uso de Fable 5 requerirá créditos.

La controversia subraya la tensión entre la regulación de la seguridad de la IA y la usabilidad del producto, una dinámica que podría ralentizar la adopción empresarial de modelos avanzados y empujar a los desarrolladores hacia alternativas de código abierto de DeepSeek y otros proveedores que operan sin barreras de seguridad centralizadas.

Un clasificador que no distingue entre árboles y drones

Un estudiante de doctorado en ciencias de la tierra en Reddit describió cómo intentó usar Fable 5 para investigar cómo los árboles reducen la temperatura ambiente. El clasificador marcó la solicitud y lo cambió a Opus 4.8. Cuando probó el sistema pidiendo código para controlar un enjambre de drones usando el SDK de DJI, Fable 5 entregó una solución completa sin interrupción.

"Esto no es un sistema de seguridad, es una puerta aleatoria", escribió el investigador.

Anthropic reconoció el problema en su publicación de redespliegue, diciendo que el clasificador bloquea la técnica de prompt específica identificada por los investigadores de Amazon en más del 99 % de los casos, pero al costo de frecuentes falsas alarmas en solicitudes benignas. La compañía no reveló cuántas sesiones de usuarios se han visto afectadas.

El problema de los falsos positivos es particularmente dañino porque la fortaleza central de Fable 5 reside en tareas de codificación complejas y de múltiples pasos. Los desarrolladores que han probado el modelo informan que cuando no es interrumpido por el clasificador, supera a cualquier modelo disponible públicamente en tareas de agente de largo plazo, obteniendo una puntuación superior al 80 % en el benchmark SWE-Bench Pro. Un desarrollador usó Fable 5 para reconstruir el horizonte de la ciudad de Nueva York en Blender en 20 minutos, extrayendo datos reales de edificios de fuentes públicas. Otro construyó un juego completo desde cero usando cuatro prompts a un costo de $173 en tokens.

Anthropic impulsa estándares de seguridad para la industria

Para evitar futuros enfrentamientos regulatorios, Anthropic está trabajando con Amazon, Microsoft y Google para crear un marco estandarizado para evaluar la gravedad de los jailbreaks de IA. El sistema propuesto puntúa los exploits en cuatro dimensiones: ganancia de capacidad, amplitud de ganancia, dificultad de armamento y facilidad de descubrimiento. Solo los exploits que maximizan las cuatro categorías —por ejemplo, una técnica que pudiera interrumpir infraestructura crítica— desencadenarían el nivel de alerta más alto que requiere mitigación inmediata.

La compañía también acordó dar a las agencias gubernamentales acceso previo al lanzamiento a futuros modelos para pruebas de seguridad, compartir información sobre vulnerabilidades de manera oportuna y financiar un programa de recompensas por bugs en HackerOne para Fable 5. El secretario de Comercio, Howard Lutnick, confirmó la eliminación de las restricciones en una carta, señalando que Anthropic había "acordado detectar y abordar de manera proactiva los riesgos de seguridad que plantean los modelos".

El episodio podría beneficiar a los proveedores de modelos de código abierto como DeepSeek, cuyo modelo V4-Pro opera sin barreras de seguridad centralizadas y ha demostrado un rendimiento competitivo en benchmarks de codificación. La credibilidad de Anthropic entre los desarrolladores —un grupo clave para la adopción de la IA— se ha visto afectada, y la capacidad de la compañía para monetizar las capacidades de Fable 5 depende de resolver el problema de falsos positivos del clasificador. Anthropic no reveló el precio por token de Fable 5, pero dijo que los créditos de uso se aplicarán después del 7 de julio.

Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.