百度的全新文心一言 5.1 模型在实现顶尖性能的同时,将预训练成本大幅削减了 94%,预示着市场可能向更高效的 AI 架构转型。
百度的全新文心一言 5.1 模型在实现顶尖性能的同时,将预训练成本大幅削减了 94%,预示着市场可能向更高效的 AI 架构转型。

与同类大型模型相比,百度全新的文心一言 5.1 AI 已将预训练成本削减了 94%。此举挑战了该领域占主导地位的资本密集型策略,并使这家中国科技巨头成为高效 AI 开发的领导者。
百度解释说,这项技术被称为“多维弹性预训练”。它详细介绍了一种从现有的文心一言 5.0 架构中提取并压缩子网络的方法,而不是从头开始构建新模型。
这种压缩将总参数减少到原始模型的大约三分之一,并将活跃参数减半。尽管如此,文心一言 5.1 在 LMArena 搜索排行榜上仍以 1,223 分获得全球第四名。在 AIME26 数学基准测试中,该模型在工具辅助下的得分为 99.6%,仅次于谷歌的 Gemini 3.1 Pro。
对于在纳斯达克上市的百度 (BIDU) 而言,仅以通常数百万美元训练成本的 6% 就实现了旗舰级性能,这提供了显著的竞争优势。这一突破对 OpenAI、谷歌和微软等竞争对手构成了直接压力,并呼应了 DeepSeek 2025 年低成本推理模型引起的市场颠覆。这可能会加速全市场向更高效架构的转型,并有利于百度在全球 AI 竞赛中的地位。
百度通过文心一言 5.1 采取的方法标志着对行业普遍盛行的“越大越好”哲学的重大背离。该公司没有为了从头开始训练新模型而产生巨额计算开销,而是继承了其更大的父模型文心一言 5.0 的知识库。这种效率优先的策略反映了 DeepSeek R1 模型在 2025 年产生的影响,后者以低 98% 的单次查询成本匹配了 OpenAI o1 的性能,并引发了英伟达市值 6,000 亿美元的调整。
新模型的底层技术是百度称之为“多教师在线策略蒸馏 (MOPD)”的四阶段强化学习系统。该系统并行训练了代码、推理和代理任务的专家模型。然后将这些专业技能蒸馏到一个统一的模型中,这种方法旨在防止提高一种能力却降低另一种能力的“跷跷板效应”。最后的在线学习阶段完善了开放式对话技巧。
文心一言 5.1 的表现使其领先于所有其他中国模型,并与西方同行旗鼓相当。其代理能力(对于复杂的多步任务至关重要)已经超越了之前的中国基准模型 DeepSeek-V4-Pro。在衡量模型回答专家级问题能力的 GPQA 基准测试中,文心一言 5.1 已接近西方领先闭源模型的表现。
这一成就使得控制着中国 76% 以上搜索市场的百度能够增强其服务,而无需承受前沿模型训练的全部成本负担。该公司表示,文心一言 5.1 已经部署在中国超过 10 个平台上,从 AI 角色扮演应用到短剧生成工具不等。
对于投资者而言,百度在保持竞争性能的同时大幅降低训练成本的成功可能是一个看涨信号。这表明,推动英伟达等股票上涨的 AI 硬件和计算需求可能并非成功的唯一路径。百度计划在 5 月 13 日至 14 日于北京举行的 Create 2026 开发者大会上提供更多关于工业应用的细节,届时该活动将因其企业和全球扩张战略的信号而受到密切关注。
本文仅供参考,不构成投资建议。