MiMo-V2.5-Pro-UltraSpeed của Xiaomi đạt hơn 1.000 token mỗi giây trên GPU tiêu chuẩn — nhanh gấp 15 lần GPT-5.5 — chỉ dùng phần mềm.
MiMo-V2.5-Pro-UltraSpeed của Xiaomi đạt hơn 1.000 token mỗi giây trên một node thương mại 8-GPU duy nhất, nhanh gấp 15 lần GPT-5.5, mà không sử dụng chip tùy chỉnh — một cột mốc định hình lại các giả định về chi phí suy luận và khả năng tiếp cận.
"Thiết kế đồng bộ mô hình-hệ thống cực đoan là điều khiến điều này khả thi," công ty cho biết trong thông báo. Theo Artificial Analysis, GPT-5.5 chạy ở 68 token mỗi giây và Claude Opus 4.6 ở 71 token, trong khi MiMo-V2.5-Pro sánh ngang Opus trong các bài kiểm tra lập trình.
Tốc độ đến từ hai kỹ thuật phối hợp. Lượng tử hóa FP4 thu nhỏ các lớp chuyên gia của mô hình — phần lớn trong số 1 nghìn tỷ tham số của nó — xuống độ chính xác 4-bit, cắt giảm bộ nhớ trong khi chất lượng gần như không suy giảm. Giải mã suy luận DFlash lấp đầy toàn bộ khối các vị trí bị che trong một lần truyền xuôi duy nhất, với mô hình chấp nhận 6,3 trong 8 token được đề xuất mỗi vòng xác minh trong các tác vụ lập trình. TileRT, công cụ suy luận, giữ toàn bộ pipeline bên trong GPU, loại bỏ chi phí khởi chạy theo từng toán tử.
Cerebras đạt 969 token mỗi giây trên Meta Llama 3.1 405B — một mô hình nhỏ hơn một nửa — sử dụng chip quy mô wafer lớn bằng một cái đĩa. Kiến trúc LPU tùy chỉnh của Groq đạt tối đa 300 đến 750 token mỗi giây. Cả hai đều không chạy trên phần cứng có sẵn từ các nhà cung cấp đám mây tiêu chuẩn. Cách tiếp cận của Xiaomi thì có, và ở mức phí gấp 3 lần giá MiMo tiêu chuẩn cho tốc độ sinh tạo gấp khoảng 10 lần. Bản dùng thử API chạy từ ngày 9 tháng 6 đến ngày 23 tháng 6.
Thành tựu này quan trọng hơn cả con số thô. Ở 1.000 token mỗi giây, các ứng dụng có ràng buộc độ trễ khắt khe — phát hiện gian lận, tín hiệu giao dịch thời gian thực, chuỗi lý luận song song, vòng lặp tác nhân trực tiếp — trở nên khả thi trong khi 68 token mỗi giây không thể đáp ứng được. MiMo-V2.5-Pro đã sánh ngang Claude Opus trong hầu hết các bài kiểm tra lập trình với chi phí chỉ bằng một phần nhỏ: khoảng 0,43 USD đầu vào và 0,87 USD đầu ra trên mỗi triệu token, so với Opus lần lượt là 5 USD và 25 USD.
Cách tiếp cận kỹ thuật đáng chú ý ở những gì nó không yêu cầu. Cerebras đã thiết kế một chip quy mô wafer với 44GB bộ nhớ trên chip để loại bỏ tắc nghẽn băng thông vốn làm chậm suy luận GPU. Groq đã xây dựng một Bộ xử lý ngôn ngữ tùy chỉnh. Xiaomi sử dụng GPU thương mại — cùng một loại phần cứng có sẵn trên AWS — và giải quyết vấn đề thông qua tối ưu hóa ở cấp độ mô hình và một công cụ suy luận được xây dựng riêng.
Lượng tử hóa FP4 mang tính phẫu thuật: chỉ các lớp chuyên gia được nén, trong khi mọi thứ khác giữ nguyên độ chính xác đầy đủ. DFlash bỏ qua bước soạn thảo tuần tự được sử dụng trong giải mã suy luận tiêu chuẩn, đề xuất toàn bộ một khối token cùng một lúc. TileRT kết nối chúng lại với nhau bằng cách giữ pipeline tính toán liên tục trên chip, loại bỏ các khoảng trống thực thi vốn thường làm chậm quá trình sinh tạo.
Xiaomi (01810.HK) đã xây dựng năng lực AI phần lớn ngoài tầm ngắm của ngành công nghiệp. MiMo-V2.5-Pro ra mắt vào tháng 4, sánh ngang các mô hình tiên phong về điểm chuẩn với chi phí chỉ bằng một phần nhỏ. UltraSpeed tăng tốc chính mô hình đó — không phải phiên bản rút gọn — và checkpoint FP4-DFlash đã được mã nguồn mở trên Hugging Face để cộng đồng thử nghiệm.
Nếu các điểm chuẩn độc lập xác nhận tuyên bố về tốc độ, Xiaomi đã đạt được điều mà Cerebras và Groq cần đầu tư hàng trăm triệu vào silicon tùy chỉnh, chỉ bằng phần mềm trên phần cứng tiêu chuẩn. Điều đó thay đổi cách tính toán về công ty nào có thể triển khai các mô hình nghìn tỷ tham số trong sản xuất — và với chi phí nào.
Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên đầu tư.