腾讯混元团队开源了一款算法,仅用四分之一算力即可达到密集注意力精度,这一突破有望大幅降低长上下文AI工作负载的推理成本。
腾讯混元团队开源了一款算法,仅用四分之一算力即可达到密集注意力精度,这一突破有望大幅降低长上下文AI工作负载的推理成本。

腾讯控股有限公司旗下混元AI团队开发出一款稀疏注意力算法,能够在减少75%算力的情况下实现接近密集注意力的精度,这有望为长上下文推理每年节省数百万美元的推理成本。
"Stem从因果信息流的角度重新审视了块级稀疏性,这一点在以往的方法中被忽略了,"腾讯混元研究团队在详细介绍该算法的技术论文中表示。
该算法引入了两项创新:Token位置衰减(根据Token在序列中的距离赋予权重)和输出感知度量(根据注意力块对最终输出的贡献来选择它们)。在算子层面,该团队报告称,开源的HPC Stem+BSA算子在128,000 token上下文窗口下,将首token延迟降低了3.7倍。
腾讯目前的交易价格约为远期盈利的20倍,该公司一直在大力投资其混元模型,以与阿里巴巴集团控股有限公司的通义千问、百度公司的文心和DeepSeek竞争。更低的推理成本有望改善腾讯云业务的利润率,并在拥有超过13亿月活跃用户的微信中提供更具性价比的AI功能。
竞争格局加剧
这一效率提升正值中国AI模型竞赛进入降本阶段。DeepSeek于2024年底发布的V3模型证明,以远低于美国前沿模型的训练成本实现有竞争力的性能是可能的。腾讯的Stem算法瞄准的是推理端——即模型在生产环境中运行的经常性支出——根据行业估算,这占已部署应用总AI工作负载成本的60%至80%。
阿里巴巴的通义千问团队也发布了稀疏注意力相关研究,而百度则针对长上下文任务优化了其文心模型。腾讯决定将HPC Stem+BSA算子开源,这一做法使其与众不同,让开发者无需依赖专有许可即可集成效率提升。
3.7倍延迟降低的意义
在128,000 token上下文下将首token延迟降低3.7倍,对于实时应用意义重大。对于处理长客服对话的微信AI助手来说,这意味着响应时间将从几十秒缩短至几秒。花旗分析师在一份报告中表示,同程旅行控股有限公司可能受益于与腾讯微信AI助手的潜在紧密合作,并重申对该股的买入评级。
128,000 token的上下文窗口与主流模型相当——OpenAI的GPT-4 Turbo支持128,000 token,而Anthropic的Claude 3.5支持200,000 token。腾讯的算法可能使混元在长上下文领域获得成本优势,因为在标准密集注意力下,推理成本随序列长度呈二次方增长。
投资启示
对于腾讯而言,成本节省在其整个AI布局中产生叠加效应。该公司报告称,2024财年云收入为533亿元人民币(74亿美元),AI相关工作负载占比不断扩大。推理成本每降低一个百分点,都能改善该业务的利润率——在这一领域,腾讯与阿里云和华为云展开价格竞争。
开源策略也具有战略逻辑。通过公开发布HPC算子,腾讯获得了社区的贡献和生态系统的采用——在基于Stem优化的基础设施上进行构建的开发者,更有可能部署混元模型。这与Meta Platforms公司在其Llama模型系列上的做法类似,后者已成为最广泛采用的开源AI系列。
本文仅供参考,不构成投资建议。