Sakana Fugu obtiene 73.7 en SWE-Bench Pro, desafiando a los modelos monolíticos de IA

El nuevo marco de orquestación Fugu de Sakana AI obtuvo 73.7 en SWE-Bench Pro, superando a Claude Opus 4.8 de Anthropic con 69.2 y a GPT-5.5 de OpenAI con 58.6, al distribuir subtareas entre un conjunto de modelos especializados en lugar de depender de una única arquitectura monolítica. El enfoque de la startup con sede en Tokio desafía la estrategia dominante de la industria de escalar modelos fundacionales cada vez más grandes.

"Fugu orquesta dinámicamente los mejores modelos del mundo para abordar tareas complejas. Estamos demostrando que un conjunto bien orquestado de agentes intercambiables puede igualar a los modelos frontera restringidos", declaró David Ha, director ejecutivo y cofundador de Sakana AI, en una publicación en X. Ha, anteriormente en Google Brain, cofundó Sakana en 2023 junto a Llion Jones, coautor del influyente artículo "Attention Is All You Need".

Fugu opera como un coordinador maestro en lugar de un modelo independiente. Cuando se le presenta una solicitud compleja, descompone el problema en subtareas, las delega a un conjunto de modelos fundacionales expertos, verifica su trabajo y sintetiza el resultado final, todo detrás de un único punto final de API compatible con OpenAI. El sistema se basa en dos de los artículos de investigación de Sakana de 2026, TRINITY y el Conductor, que enseñan al modelo estrategias de coordinación aprendidas en lugar de flujos de trabajo diseñados manualmente. Hay dos variantes disponibles: Fugu estándar para tareas cotidianas y Fugu Ultra para cargas de trabajo de alto riesgo como investigación en IA y análisis de ciberseguridad.

El lanzamiento se produce dos semanas después de que Anthropic revocara el acceso público a sus modelos más potentes, Claude Mythos 5 y Claude Fable 5, tras una orden de control de exportaciones del gobierno de EE. UU. Esa medida expuso una vulnerabilidad que las empresas y las naciones habían temido durante mucho tiempo: el acceso a la IA de primer nivel puede desaparecer de la noche a la mañana debido a decisiones geopolíticas. La arquitectura de Fugu incorpora redundancia nativa en la pila de IA: si un proveedor enfrenta restricciones, el sistema redirige el tráfico para evitar la interrupción. Los modelos específicos en el conjunto de Fugu y cómo los coordina siguen siendo propietarios, pero los desarrolladores pueden excluir a proveedores específicos del conjunto de enrutamiento por motivos de cumplimiento.

Cómo se comparan los benchmarks de Fugu con la frontera

Fugu Ultra igualó o superó a los modelos frontera restringidos en varios benchmarks clave. En LiveCodeBench, que prueba el rendimiento de codificación en problemas de software actualizados periódicamente, Fugu Ultra obtuvo 93.2 y Fugu estándar 92.9, ambos superando a Claude Fable 5 de Anthropic con 89.8. En GPQA-Diamond, una prueba de preguntas de opción múltiple a nivel de posgrado en biología, física y química, ambas variantes de Fugu obtuvieron 95.5, superando a Claude Mythos Preview con 94.6.

Sin embargo, Fugu no logra un triunfo absoluto. En SWE-Bench Pro, el 73.7 de Fugu Ultra quedó por detrás del 80.0 de Fable 5, un modelo actualmente ausente del conjunto intercambiable de Fugu debido a la orden de control de exportaciones. En Humanity's Last Exam, Fugu Ultra obtuvo 50.0 frente al 53.3 de Fable 5. En recuperación de contexto largo (MRCRv2), GPT-5.5 de OpenAI lideró con 94.8 frente al 93.6 de Fugu Ultra. Estos resultados sugieren que, para el razonamiento de fuerza bruta dentro de un único dominio restringido, los modelos independientes más grandes aún mantienen una ventaja, siempre que las empresas puedan garantizar un acceso ininterrumpido.

Precios y la economía de la orquestación

Fugu Ultra tiene un precio de $5 por millón de tokens de entrada y $30 por millón de tokens de salida, situándose entre las opciones más caras del mercado, comparable a GPT-5.5 de OpenAI con $5 y $30 respectivamente, y muy por debajo del ahora restringido Fable 5 de Anthropic con $10 y $50. Sin embargo, existe una salvedad importante: los tokens de fondo consumidos cuando Fugu delega subtareas y enruta entre agentes no son absorbidos por el proveedor. Representan un uso real de tokens y se contabilizan en el precio final a las tarifas estándar.

Una prueba del mundo real realizada por Mark Santos, propietario de una agencia creativa, ilustró las compensaciones. Encargado de construir un clon del juego "Crossy Road" usando Three.js, Fugu Ultra completó el trabajo en 22 minutos usando aproximadamente 89,000 tokens por unos $7.32, aunque el juego final presentaba errores de lógica menores. Claude Opus 4.8 tardó 79 minutos, consumió alrededor de 940,000 tokens por casi $37.85 y requirió intervención humana para salir de un bucle de reintentos, pero finalmente produjo un diseño de aplicación superior.

El panorama de la orquestación y lo que significa para los inversores

Fugu opera bajo un paradigma fundamentalmente diferente al de las plataformas de enrutamiento estándar como Not Diamond, Martian o el marco de código abierto RouteLLM. Estos sistemas toman una decisión de enrutamiento única: analizan una solicitud entrante y la envían a un solo modelo. Fugu, por el contrario, se alinea más con sistemas complejos de múltiples rondas como Router-R1, desglosando consultas, intercalando razonamiento con delegación y asignando subtareas a múltiples modelos en paralelo antes de sintetizar el resultado.

La aparición de modelos de orquestación que logran un rendimiento de frontera sin cómputo de fuerza bruta tiene implicaciones que van más allá de cualquier empresa individual. Rich Privorotsky, de Goldman Sachs, jefe del escritorio 1-Delta, ha identificado los costos de alquiler de servidores como un indicador central para la tesis de inversión en hardware de IA. Si la orquestación reduce la necesidad de grupos masivos de GPU, podría presionar los márgenes de los hiperescaladores y proveedores de GPU. Los ETF de semiconductores registraron entradas anormalmente altas la semana pasada, lo que sugiere que el mercado sigue posicionado para una demanda continua de cómputo, una apuesta que modelos de orquestación como Fugu podrían eventualmente desafiar.

Sakana, que alcanzó una valoración de $2.6 mil millones en su ronda Serie B a finales de 2025, también enfrenta presión competitiva desde el lado del código abierto. GLM-5.2 de Zhipu AI obtuvo 74.4 en el benchmark FrontierSWE, a un punto de los 75.1 de Claude Opus 4.8, con precios entre un 72 % y un 82 % por debajo del modelo de Anthropic. El modelo utiliza una licencia MIT y admite apertura de pesos, destilación y cuantización.

Fugu está disponible de inmediato en la mayoría de las regiones, con la excepción temporal de la Unión Europea y el Espacio Económico Europeo mientras Sakana trabaja para alinear su arquitectura de enrutamiento de datos de caja negra con las regulaciones del GDPR. Los niveles de suscripción comienzan en $20 por mes para uso estándar, con planes empresariales de pago por uso que ofrecen mayor prioridad para cargas de trabajo de producción.

Para los inversores, la pregunta clave es si la orquestación representa un complemento o un sustituto del gasto tradicional en cómputo. Si el enfoque de Fugu gana una adopción generalizada, podría comprimir la demanda de los grupos de GPU más grandes, un lastre para Nvidia y AMD. Pero si el mercado lo considera una capa adicional sobre la infraestructura existente, podría expandir el mercado total direccionable para la inferencia de IA. La próxima señal provendrá de las tasas de adopción empresarial y de si los hiperescaladores ajustan sus precios en respuesta.

Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.