OpenAI通过新优化技术将推理成本削减50%

据一位知情人士透露，OpenAI工程师本月早些时候告知同事，他们已开发出一套优化技术，可将模型推理成本降低逾50%。这些此前未曾披露的讨论内容因细节尚未公开，该人士要求匿名。

"这是在推理效率上的一次阶跃式进步，直接击中了大规模提供AI服务时的最大成本项，"该人士表示。

这一突破瞄准了使大型语言模型运营成本高昂的计算瓶颈。推理——即从已训练模型中生成响应的过程——占据了AI服务提供商运营开支的绝大部分，成本与使用量直接挂钩。该人士称，OpenAI的新技术结合了多种创新方法，以减少每次查询所需的算力，但未透露具体方法或生产部署的时间表。《信息报》（The Information）率先报道了这一进展。

这一效率提升每年可为OpenAI节省数亿美元的云计算成本，可能使其降低API定价，并对竞争对手——包括Anthropic、谷歌以及以近乎零成本发布竞品模型的中国实验室——形成经济上的压力。OpenAI目前最强大的模型每百万输入令牌收费数美元，这一价格限制了高流量应用的大规模采用。

这一进展正值AI行业的关键节点。推理成本已成为企业大规模采用AI的最大单一障碍，各公司在部署AI应用时都将成本列为头号担忧。50%的降幅将使运行OpenAI最强大模型的每令牌成本接近其较小规模产品的经济水平，从而扩展AI在经济上可行的应用场景——从实时客服到大规模文档处理。

对于OpenAI而言，这一时机具有战略意义。该公司正在进行大规模基础设施建设，在数据中心容量和定制芯片上投入数十亿美元。本月早些时候，OpenAI与博通（Broadcom）联合推出了Jalapeno——一款旨在挑战英伟达（Nvidia）在数据中心计算领域主导地位的定制AI推理芯片。定制硬件与软件层面优化的结合，可能使OpenAI相较依赖英伟达通用GPU的竞争对手获得结构性成本优势。英伟达的通用GPU目前毛利率超过70%，其H100和B200芯片仍是行业推理标准，但定制专用集成电路（ASIC）正日益被视为获得更优性价比的路径。

竞争格局正在迅速变化。包括DeepSeek和阿里巴巴旗下Qwen团队在内的中国实验室，已发布成本仅为西方模型一部分的竞品，给OpenAI和Anthropic带来了证明其高定价合理性的压力。据报道，DeepSeek最新模型在推理成本约为十分之一的情况下，实现了与GPT-4级别模型相当的性能。与此同时，谷歌一直在大力投资自有定制张量处理单元（TPU），以降低其Gemini模型的部署成本。OpenAI在推理成本上的突破将有助于缩小与这些低成本替代方案之间的差距，从而在保持竞争性经济性的同时，保留凭借卓越性能收取更高价格的潜力。

这一优化技术的推出也正值OpenAI面临日益增长的支出压力之际。该公司为资助模型训练和基础设施建设而快速消耗现金，投资者已要求其拿出更清晰的盈利路径。将推理成本削减一半将直接提升API收入的毛利率，这是该公司财务健康状况的关键指标。

对投资者而言，其影响是双面的。更低的推理成本扩大了AI的整体潜在市场规模，使更多应用场景变得经济可行——这对整个行业是利好。但也压缩了无法实现同等效率提升的AI模型提供商的利润空间。英伟达的GPU支撑着绝大多数AI推理工作负载，若定制芯片和软件优化减少了每次查询所需的算力，该公司可能面临逆风。OpenAI估值近期据报已达三千亿美元，其单位经济效益的改善将为其估值提供支撑。微软作为OpenAI最大投资者和云合作伙伴，将受益于运行在Azure上的低成本AI服务，可能加速其Copilot产品在企业客户中的采用。由于这些技术尚未公开且未经独立基准验证，市场尚未对这一效率提升进行定价。

本文仅供参考，不构成投资建议。