Sakana Fugu đạt 73.7 trên SWE-Bench Pro, thách thức các mô hình AI đơn khối

Khung điều phối Fugu mới của Sakana AI đã đạt 73.7 điểm trên SWE-Bench Pro, vượt qua Claude Opus 4.8 của Anthropic (69,2) và GPT-5.5 của OpenAI (58,6), bằng cách phân chia các tác vụ con cho một nhóm các mô hình chuyên biệt thay vì dựa vào một kiến trúc đơn khối duy nhất. Cách tiếp cận của startup có trụ sở tại Tokyo này thách thức chiến lược thống trị của ngành là mở rộng quy mô các mô hình nền tảng ngày càng lớn hơn.

"Fugu điều phối động các mô hình tốt nhất thế giới để giải quyết các tác vụ phức tạp. Chúng tôi đang chứng minh rằng một nhóm các tác tử có thể hoán đổi linh hoạt được điều phối tốt có thể sánh ngang với các mô hình tiên tiến bị hạn chế," David Ha, CEO kiêm đồng sáng lập của Sakana AI, cho biết trong một bài đăng trên X. Ha, cựu thành viên của Google Brain, đã đồng sáng lập Sakana vào năm 2023 cùng với Llion Jones, một đồng tác giả của bài báo nền tảng "Attention Is All You Need".

Fugu hoạt động như một bộ điều phối tổng thể thay vì một mô hình độc lập. Khi nhận được một yêu cầu phức tạp, hệ thống chia vấn đề thành các tác vụ con, ủy thác chúng cho một nhóm các mô hình nền tảng chuyên gia, xác minh kết quả và tổng hợp đầu ra cuối cùng — tất cả đều thông qua một điểm cuối API tương thích với OpenAI duy nhất. Hệ thống được xây dựng dựa trên hai bài nghiên cứu năm 2026 của Sakana, TRINITY và Conductor, vốn dạy mô hình các chiến lược phối hợp đã được học thay vì các quy trình làm việc được thiết kế thủ công. Hai biến thể có sẵn: Fugu tiêu chuẩn cho các tác vụ hàng ngày và Fugu Ultra cho các khối lượng công việc có rủi ro cao như nghiên cứu AI và phân tích an ninh mạng.

Việc ra mắt diễn ra hai tuần sau khi Anthropic thu hồi quyền truy cập công khai vào các mô hình mạnh nhất của mình, Claude Mythos 5 và Claude Fable 5, sau một lệnh kiểm soát xuất khẩu của chính phủ Mỹ. Động thái đó đã phơi bày một lỗ hổng mà các doanh nghiệp và quốc gia từng lo sợ: quyền truy cập vào AI hàng đầu có thể biến mất chỉ sau một đêm do các quyết định địa chính trị. Kiến trúc của Fugu xây dựng tính dự phòng bản địa vào ngăn xếp AI — nếu một nhà cung cấp gặp phải các hạn chế, hệ thống sẽ định tuyến vượt qua sự gián đoạn. Các mô hình cụ thể trong nhóm của Fugu và cách nó điều phối chúng vẫn là độc quyền, nhưng các nhà phát triển có thể loại trừ các nhà cung cấp cụ thể khỏi nhóm định tuyến để tuân thủ quy định.

Hiệu suất của Fugu so với các mô hình tiên tiến

Fugu Ultra đã ngang bằng hoặc vượt các mô hình tiên tiến bị hạn chế trên một số điểm chuẩn chính. Trên LiveCodeBench, nơi kiểm tra hiệu suất lập trình trên các vấn đề phần mềm được làm mới thường xuyên, Fugu Ultra đạt 93,2 và Fugu tiêu chuẩn đạt 92,9, cả hai đều đánh bại Claude Fable 5 của Anthropic ở mức 89,8. Trên GPQA-Diamond, bài kiểm tra các câu hỏi trắc nghiệm trình độ sau đại học về sinh học, vật lý và hóa học, cả hai biến thể Fugu đều đạt 95,5, nhỉnh hơn Claude Mythos Preview ở mức 94,6.

Tuy nhiên, Fugu không phải là hoàn hảo tuyệt đối. Trên SWE-Bench Pro, Fugu Ultra đạt 73,7, thấp hơn Fable 5 ở mức 80,0 — một mô hình hiện không có trong nhóm hoán đổi của Fugu do lệnh kiểm soát xuất khẩu. Trên Humanity's Last Exam, Fugu Ultra đạt 50,0 so với 53,3 của Fable 5. Về khả năng ghi nhớ ngữ cảnh dài (MRCRv2), GPT-5.5 của OpenAI dẫn đầu ở mức 94,8 so với 93,6 của Fugu Ultra. Những kết quả này cho thấy đối với khả năng suy luận mạnh mẽ trong một lĩnh vực bị ràng buộc duy nhất, các mô hình độc lập lớn nhất vẫn chiếm ưu thế — với điều kiện doanh nghiệp có thể duy trì quyền truy cập không bị gián đoạn.

Định giá và kinh tế học của điều phối

Fugu Ultra được định giá 5 USD mỗi triệu token đầu vào và 30 USD mỗi triệu token đầu ra, đặt nó vào nhóm các lựa chọn đắt đỏ hơn trên thị trường — tương đương với GPT-5.5 của OpenAI ở mức 5 USD và 30 USD, và thấp hơn đáng kể so với Fable 5 hiện đã bị hạn chế của Anthropic ở mức 10 USD và 50 USD. Tuy nhiên, có một lưu ý quan trọng: các token nền tiêu thụ khi Fugu ủy thác các tác vụ con và định tuyến giữa các tác tử không được nhà cung cấp hấp thụ. Chúng đại diện cho việc sử dụng token thực tế và được tính vào giá cuối cùng theo tỷ lệ tiêu chuẩn.

Một thử nghiệm thực tế của chủ sở hữu công ty sáng tạo Mark Santos đã minh họa những sự đánh đổi. Được giao nhiệm vụ xây dựng một bản sao game "Crossy Road" bằng Three.js, Fugu Ultra đã hoàn thành công việc trong 22 phút, sử dụng khoảng 89.000 token với chi phí khoảng 7,32 USD, mặc dù game cuối cùng mắc một số lỗi logic nhỏ. Claude Opus 4.8 mất 79 phút, đốt khoảng 940.000 token với chi phí gần 37,85 USD và cần can thiệp của con người để thoát khỏi vòng lặp thử lại — nhưng cuối cùng đã tạo ra thiết kế ứng dụng vượt trội.

Bức tranh về điều phối và ý nghĩa đối với nhà đầu tư

Fugu hoạt động trên một mô hình hoàn toàn khác biệt so với các nền tảng định tuyến tiêu chuẩn như Not Diamond, Martian hoặc khung RouteLLM mã nguồn mở. Các hệ thống đó đưa ra quyết định định tuyến một lần — phân tích một prompt đến và gửi nó đến một mô hình duy nhất. Ngược lại, Fugu gần giống với các hệ thống đa vòng phức tạp hơn như Router-R1, chia nhỏ các truy vấn, xen kẽ suy luận với ủy quyền và gán các tác vụ con cho nhiều mô hình song song trước khi tổng hợp đầu ra.

Sự nổi lên của các mô hình điều phối đạt được hiệu suất tiên tiến mà không cần sức mạnh tính toán thô có ý nghĩa vượt ra ngoài bất kỳ công ty đơn lẻ nào. Rich Privorotsky của Goldman Sachs, người đứng đầu bàn 1-Delta, đã xác định chi phí thuê máy chủ là một chỉ số cốt lõi cho luận điểm đầu tư phần cứng AI. Nếu điều phối làm giảm nhu cầu về các cụm GPU khổng lồ, nó có thể gây áp lực lên biên lợi nhuận của các hyperscaler và nhà cung cấp GPU. Các quỹ ETF bán dẫn đã ghi nhận dòng vốn vào cao bất thường trong tuần trước, cho thấy thị trường vẫn đang đặt cược vào nhu cầu tính toán tiếp tục — một canh bạc mà các mô hình điều phối như Fugu cuối cùng có thể thách thức.

Sakana, đạt định giá 2,6 tỷ USD trong vòng Series B vào cuối năm 2025, cũng đang chịu áp lực cạnh tranh từ phía mã nguồn mở. GLM-5.2 của Zhipu AI đạt 74,4 trên điểm chuẩn FrontierSWE, chỉ kém Claude Opus 4.8 (75,1) một điểm, trong khi định giá thấp hơn từ 72% đến 82% so với mô hình của Anthropic. Mô hình này sử dụng giấy phép MIT và hỗ trợ tính mở về trọng số, chưng cất và lượng tử hóa.

Fugu có sẵn ngay lập tức tại hầu hết các khu vực, ngoại trừ tạm thời Liên minh Châu Âu và Khu vực Kinh tế Châu Âu trong khi Sakana làm việc để điều chỉnh kiến trúc định tuyến dữ liệu dạng hộp đen của mình với các quy định GDPR. Các gói đăng ký bắt đầu từ 20 USD mỗi tháng cho sử dụng tiêu chuẩn, với các gói trả theo mức sử dụng doanh nghiệp cung cấp mức ưu tiên cao hơn cho khối lượng công việc sản xuất.

Đối với các nhà đầu tư, câu hỏi chính là liệu điều phối là một yếu tố bổ trợ hay thay thế cho chi tiêu sức mạnh tính toán truyền thống. Nếu cách tiếp cận của Fugu được áp dụng rộng rãi, nó có thể làm giảm nhu cầu về các cụm GPU lớn nhất — một trở ngại cho Nvidia và AMD. Nhưng nếu thị trường coi đây là một lớp bổ sung trên cơ sở hạ tầng hiện có, nó có thể mở rộng tổng thị trường có thể tiếp cận cho suy luận AI. Tín hiệu tiếp theo sẽ đến từ tỷ lệ áp dụng của doanh nghiệp và liệu các hyperscaler có điều chỉnh định giá của họ để đáp ứng hay không.

Bài viết này chỉ mang tính chất tham khảo và không cấu thành lời khuyên đầu tư.