小米万亿参数AI模型推理速度突破每秒1000 token

小米MiMo-V2.5-Pro-UltraSpeed在标准GPU上每秒处理超1000 token——比GPT-5.5快15倍——仅靠软件实现。

小米MiMo-V2.5-Pro-UltraSpeed在单个8-GPU商用节点上每秒处理超1000 token，比GPT-5.5快15倍，无需定制芯片——这一里程碑重新定义了推理成本与可及性的基本假设。

"极致的模型-系统协同设计是实现这一突破的关键，"公司在其公告中表示。根据Artificial Analysis的数据，GPT-5.5的运行速度为每秒68 token，Claude Opus 4.6为每秒71 token，而MiMo-V2.5-Pro在编程基准测试上与Opus相当。

这一速度来自两项协同技术。FP4量化将模型的专家层——其1万亿参数中的绝大部分——压缩至4位精度，大幅降低内存占用的同时将质量损失保持在接近零的水平。DFlash推测解码在单次前向传播中填充一整块掩码位置，在编程任务中，模型每轮验证可接受8个提议token中的6.3个。推理引擎TileRT将整个管线常驻在GPU内部，消除了逐算子启动的开销。

Cerebras在Meta的Llama 3.1 405B上实现了每秒969 token——该模型规模不到小米模型的一半——采用了一块餐盘大小的晶圆级芯片。Groq的定制LPU架构最高可达每秒300至750 token。两者均无法在标准云服务商提供的硬件上运行。而小米的方案可以，且费用仅为标准MiMo费率的3倍，生成速度约为其10倍。API试用期为6月9日至6月23日。

这一成就的意义远不止于数字本身。在每秒1000 token的速度下，那些对延迟有严苛要求的应用——欺诈检测、实时交易信号、并行推理链、实时智能体循环——变得可行，而每秒68 token的速率无法满足这些需求。MiMo-V2.5-Pro在大多数编程基准测试上已与Claude Opus持平，成本却仅为后者的一小部分：每百万token输入约0.43美元，输出约0.87美元，而Opus分别为5美元和25美元。

这一技术方案的独特之处在于它不需要什么。Cerebras设计了晶圆级芯片，内置44GB片上内存，以消除制约GPU推理的带宽瓶颈。Groq则打造了定制语言处理单元。小米使用的是商用GPU——与AWS上可用的硬件完全相同——通过模型层面的优化和自研推理引擎解决了问题。

FP4量化具有高度针对性：仅压缩专家层，其他部分保持全精度。DFlash跳过了标准推测解码中使用的逐词起草步骤，一次性提出整块token。TileRT将两者结合，使计算管线持续常驻，消除了通常拖慢生成速度的执行间隙。

小米(01810.HK)一直在行业聚光灯之外打造AI能力。MiMo-V2.5-Pro于4月发布，以极低的成本在基准测试上达到前沿模型水平。UltraSpeed加速的是同一模型——而非精简版——其FP4-DFlash检查点已通过Hugging Face开源，供社区测试。

如果独立基准测试确认了这一速度数据，那么小米就用标准硬件上的软件方案，实现了Cerebras和Groq需要投入数亿美元定制芯片才能达成的成就。这将改变哪些公司能够以何种成本在生产环境中部署万亿参数模型的格局。

本文仅供参考，不构成投资建议。