Xiaomi MiMo-V2.5 cắt giảm 99% chi phí suy luận nhờ đột phá KVCache

Dòng mô hình MiMo-V2.5 của Xiaomi đạt mức giảm 99% giá API nhờ nén bộ nhớ KVCache xuống còn khoảng 1/7 so với các giải pháp tương đương, công ty cho biết, thách thức câu chuyện cho rằng định giá AI của Trung Quốc được thúc đẩy bởi các chiến thuật bán phá giá.

"Hiệu quả suy luận của dòng MiMo-V2.5 không đến từ một bước đột phá đơn lẻ mà từ những tối ưu hóa phối hợp đa chiều trên toàn bộ ngăn xếp," Luo Fuli, người đứng đầu MiMo, cho biết trong một bài đăng kỹ thuật. "Chỉ khi đó Hybrid SWA mới phát huy đầy đủ lợi thế kiến trúc của nó trong suy luận ngữ cảnh dài."

Quá trình tối ưu hóa tái cấu trúc toàn bộ ngăn xếp suy luận — từ quản lý KVCache, phân cấp bộ nhớ đệm đến chiến lược lập lịch và đường ống prefill-decode — xoay quanh kiến trúc hybrid Sliding Window Attention kết hợp Mixture-of-Experts và đa phương thức. Bộ nhớ KVCache hiện chỉ chiếm 1/7 dung lượng so với các giải pháp full-attention, giúp giảm mạnh chi phí suy luận trong các kịch bản chuỗi dài. Hệ thống đạt tỷ lệ hit bộ nhớ đệm máy chủ từ 93% đến 95%, nghĩa là phần lớn các yêu cầu đọc lặp lại hầu như không cần tính toán GPU.

Bước đột phá về chi phí đưa Xiaomi vào thế cạnh tranh trực tiếp với DeepSeek, Zhipu, Doubao của ByteDance và Tongyi của Alibaba trong thị trường mô hình lớn đông đúc của Trung Quốc — mà không gặp phải tình trạng xói mòn biên lợi nhuận vốn đặc trưng cho cuộc chiến giá kéo dài hai năm qua của ngành. Cổ phiếu Xiaomi giao dịch cao hơn 2,5% tại thời điểm công bố, với tỷ lệ bán khống 31%, cho thấy hoạt động phòng hộ tích cực từ các tổ chức xoay quanh cổ phiếu này.

Sáu trụ cột kỹ thuật, một chuỗi chi phí

Mức giảm 99% áp dụng cụ thể cho bảng giá Input (Cache Hit) — phần liên quan đến việc người dùng đọc lại ngữ cảnh lịch sử trong các cuộc hội thoại dài. Bài đăng kỹ thuật của Luo Fuli đã nêu chi tiết sáu tối ưu hóa liên kết giúp mức giảm giá này bền vững.

Thứ nhất, kiến trúc mô hình sử dụng Sliding Window Attention trên 60 trong số 70 lớp, với mỗi lớp chỉ chú ý đến 128 token gần nhất. Chỉ 10 lớp hoạt động như "người lưu trữ" toàn ngữ cảnh, giảm kích thước KVCache xuống còn 1/7 so với mô hình full-attention. Thứ hai, nhóm nghiên cứu chia KVCache thành hai nhóm bộ nhớ độc lập — một nhóm lớn cho 10 lớp full-attention và một nhóm nhỏ cho 60 lớp SWA — cho phép một GPU duy nhất phục vụ số lượng người dùng đồng thời gấp năm lần.

Thứ ba, hệ thống bộ nhớ đệm tiền tố được nâng cấp với quy tắc "độ dài bảo mật cửa sổ" giúp ngăn chặn sự không khớp bộ nhớ đệm ở chế độ SWA, đẩy tỷ lệ hit thực tế lên trên 93%. Thứ tư, nhóm lưu trữ của Xiaomi đã xây dựng một bộ nhớ đệm phân tán có tên GCache được triển khai trực tiếp trên SSD bên trong máy GPU, loại bỏ nhu cầu về một cụm lưu trữ riêng biệt và chi phí hàng tháng đi kèm.

Thứ năm, một hệ thống lập lịch tùy chỉnh có tên LLM-Router thực hiện lập lịch ái lực (affinity scheduling), phân nhóm dựa trên độ dài và tối ưu hóa TTFT — định tuyến các yêu cầu có cùng tiền tố đến cùng một máy chủ, tách các yêu cầu ngắn và dài vào các kênh khác nhau, đồng thời ưu tiên các yêu cầu nặng về bộ nhớ đệm trong hàng đợi suy luận. Các bài kiểm tra cho thấy tỷ lệ hit bộ nhớ đệm L2 tăng 25% và độ trễ P90 cho các yêu cầu dài giảm 30%.

Thứ sáu, mô hình hỗ trợ nguyên bản Dự đoán Đa Token ba lớp, dự đoán ba token tiếp theo cùng một lúc và bỏ qua các bước tính toán trung gian khi dự đoán chính xác. Trong các kịch bản tác tử (agentic), điều này mang lại khả năng tăng tốc 2,3 lần cho 128 token đầu tiên và 1,5 lần cho các token từ 128 đến 256.

Hệ sinh thái nhà phát triển và lợi thế cạnh tranh

MiMo đã ra mắt Chương trình Khuyến khích Sáng tạo Token 100 nghìn tỷ, thu hút hơn 540.000 đơn đăng ký, với tổng phân phối tích lũy 100 nghìn tỷ token miễn phí trị giá hơn 65 triệu nhân dân tệ. Chương trình nhằm thúc đẩy việc các nhà phát triển áp dụng nền tảng MiMo, tạo ra một hào bảo vệ xung quanh cơ sở người dùng của mô hình.

Cấu trúc chi phí có ý nghĩa vượt xa báo cáo lãi lỗ của riêng Xiaomi. DeepSeek đã kéo toàn bộ chuẩn định giá ngành AI Trung Quốc xuống mức đáy, buộc mọi đối thủ cạnh tranh phải hoặc theo kịp hoặc biện minh cho mức phí bảo hiểm. Cách tiếp cận của Xiaomi — giảm chi phí dựa trên kỹ thuật thay vì trợ cấp — cho thấy công ty có thể duy trì giá thấp hơn trong khi các đối thủ có thể đang đốt tiền mặt. Công ty gần đây tiết lộ lợi nhuận đã giảm một nửa trong năm nay trong khi đổ 60 tỷ nhân dân tệ vào đầu tư AI, khiến tuyên bố hòa vốn từ đợt cắt giảm giá trở thành một tín hiệu quan trọng đối với các nhà đầu tư theo dõi phân bổ vốn của Xiaomi.

Đối với các nhà đầu tư, câu hỏi đặt ra là liệu Xiaomi có thể chuyển đổi lợi thế chi phí suy luận thành thị phần nhà phát triển trước khi các đối thủ tái tạo kiến trúc này hay không. DeepSeek, Tongyi của Alibaba và Doubao của ByteDance đều có nguồn lực kỹ thuật tương đương và có thể đáp trả bằng các tối ưu hóa KVCache của riêng họ. Cổ phiếu Xiaomi giao dịch với tỷ lệ bán khống trên 30%, cho thấy thị trường vẫn chia rẽ về việc liệu canh bạc AI của công ty có mang lại kết quả trước các đối thủ cạnh tranh đã có tên tuổi hay không.

Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên đầu tư.