腾讯混元推出新型稀疏注意力算法，AI算力削减75%

腾讯控股有限公司旗下混元AI团队开发出一款稀疏注意力算法，能够在减少75%算力的情况下实现接近密集注意力的精度，这有望为长上下文推理每年节省数百万美元的推理成本。

"Stem从因果信息流的角度重新审视了块级稀疏性，这一点在以往的方法中被忽略了，"腾讯混元研究团队在详细介绍该算法的技术论文中表示。

该算法引入了两项创新：Token位置衰减（根据Token在序列中的距离赋予权重）和输出感知度量（根据注意力块对最终输出的贡献来选择它们）。在算子层面，该团队报告称，开源的HPC Stem+BSA算子在128,000 token上下文窗口下，将首token延迟降低了3.7倍。

腾讯目前的交易价格约为远期盈利的20倍，该公司一直在大力投资其混元模型，以与阿里巴巴集团控股有限公司的通义千问、百度公司的文心和DeepSeek竞争。更低的推理成本有望改善腾讯云业务的利润率，并在拥有超过13亿月活跃用户的微信中提供更具性价比的AI功能。

竞争格局加剧

这一效率提升正值中国AI模型竞赛进入降本阶段。DeepSeek于2024年底发布的V3模型证明，以远低于美国前沿模型的训练成本实现有竞争力的性能是可能的。腾讯的Stem算法瞄准的是推理端——即模型在生产环境中运行的经常性支出——根据行业估算，这占已部署应用总AI工作负载成本的60%至80%。

阿里巴巴的通义千问团队也发布了稀疏注意力相关研究，而百度则针对长上下文任务优化了其文心模型。腾讯决定将HPC Stem+BSA算子开源，这一做法使其与众不同，让开发者无需依赖专有许可即可集成效率提升。

3.7倍延迟降低的意义

在128,000 token上下文下将首token延迟降低3.7倍，对于实时应用意义重大。对于处理长客服对话的微信AI助手来说，这意味着响应时间将从几十秒缩短至几秒。花旗分析师在一份报告中表示，同程旅行控股有限公司可能受益于与腾讯微信AI助手的潜在紧密合作，并重申对该股的买入评级。

128,000 token的上下文窗口与主流模型相当——OpenAI的GPT-4 Turbo支持128,000 token，而Anthropic的Claude 3.5支持200,000 token。腾讯的算法可能使混元在长上下文领域获得成本优势，因为在标准密集注意力下，推理成本随序列长度呈二次方增长。

投资启示

对于腾讯而言，成本节省在其整个AI布局中产生叠加效应。该公司报告称，2024财年云收入为533亿元人民币（74亿美元），AI相关工作负载占比不断扩大。推理成本每降低一个百分点，都能改善该业务的利润率——在这一领域，腾讯与阿里云和华为云展开价格竞争。

开源策略也具有战略逻辑。通过公开发布HPC算子，腾讯获得了社区的贡献和生态系统的采用——在基于Stem优化的基础设施上进行构建的开发者，更有可能部署混元模型。这与Meta Platforms公司在其Llama模型系列上的做法类似，后者已成为最广泛采用的开源AI系列。

本文仅供参考，不构成投资建议。