小米MiMo-V2.5以KVCache突破实现推理成本降低99%

Xiaomi的MiMo-V2.5系列模型通过将KVCache存储压缩至同类方案约七分之一，实现了API价格降低99%。该公司表示，这挑战了中国AI定价依靠亏损领先策略的说法。

"MiMo-V2.5系列的推理效率并非来自单一突破，而是来自整个技术栈多维度的协同优化，"MiMo负责人罗福莉在一篇技术博文中表示。"只有这样，Hybrid SWA才能在长上下文推理中充分发挥其架构优势。"

该优化围绕混合滑动窗口注意力加混合专家及多模态架构，重构了整个推理栈——从KVCache管理、分层缓存到调度策略以及预填充-解码流水线。KVCache存储现在仅占用全注意力方案七分之一的内存，大幅降低了长序列场景中的推理成本。该系统实现了93%至95%的服务端缓存命中率，意味着绝大多数重复读取请求几乎不需要GPU计算。

这一成本突破使小米能够在中国拥挤的大模型市场中直接与DeepSeek、智谱、字节跳动的豆包以及阿里巴巴的通义千问展开竞争——且不会出现该行业两年价格战所伴随的利润率侵蚀。小米股价在公告发布时上涨2.5%，做空比率为31%，表明机构投资者围绕该股进行着活跃的对冲。

六大工程支柱，一条成本链条

99%的折扣特指输入（缓存命中）定价层级——即用户重复读取长对话历史上下文所对应的部分。罗福莉的技术博文详细介绍了使该折扣可持续的六项相互关联的优化。

首先，模型架构在其70层中的60层使用了滑动窗口注意力，每一层仅关注最近的128个token。只有10层充当全上下文的"档案员"，从而将KVCache大小降至全注意力模型的七分之一。其次，团队将KVCache拆分为两个独立的内存池——一个大池用于10个全注意力层，一个小池用于60个SWA层——使得单个GPU能够服务的并发用户数提升至五倍。

第三，前缀缓存系统升级了"窗口安全长度"规则，防止SWA模式下出现缓存不匹配，将实际命中率推高至93%以上。第四，小米的存储团队构建了一个名为GCache的分布式缓存，直接部署在GPU机器内部的SSD上，消除了对独立存储集群及其相关月度成本的需求。

第五，一个名为LLM-Router的自定义调度系统执行亲和性调度、基于长度的分桶以及TTFT优化——将具有相同前缀的请求路由到同一台服务器，将短请求和长请求分离到不同的通道，并在推理队列中优先处理缓存密集型的请求。测试显示，L2缓存命中率提升了25%，长请求的P90延迟降低了30%。

第六，该模型原生支持三层多token预测，一次性预测接下来的三个token，并在预测正确时跳过中间计算。在智能体场景中，这为前128个token带来了2.3倍的加速，为第128至256个token带来了1.5倍的加速。

开发者生态与竞争格局

MiMo推出了一个100万亿token的创作者激励计划，已吸引超过54万名申请者，累计分发了100万亿免费token，价值超过6500万元人民币。该计划旨在加深开发者对MiMo平台的采用，围绕模型的用户群体构建护城河。

这一成本结构不仅仅关乎小米自身的损益表。DeepSeek已将整个中国AI行业的定价基准拖至谷底，迫使每个竞争者要么跟进，要么证明溢价的合理性。小米的策略——以工程驱动的成本削减而非补贴——表明该公司可以在竞争对手可能烧钱的情况下维持更低的价格。该公司近期披露，今年其利润减半，同时将600亿元人民币投入AI投资，因此此次降价的盈亏平衡声明对于追踪小米资本配置的投资者而言是一个关键信号。

对于投资者而言，问题在于小米能否在竞争对手复制其架构之前，将推理成本优势转化为开发者市场份额。DeepSeek、阿里巴巴的通义千问以及字节跳动的豆包均拥有相当的工程资源，可能会推出自己的KVCache优化方案。小米股票的做空比率超过30%，表明市场对于该公司的AI押注能否在与更成熟竞争对手的较量中取得成功仍存在分歧。

本文仅供参考，不构成投资建议。