開源AI追上閉源差距縮至3個月 4大模型重塑2026格局

根據OpenRouter 2026年6月發布的分析報告，開源AI模型已將與閉源前沿系統的能力差距縮小至短短三個月。報告指出，目前有四大開源模型正以極低的成本與OpenAI及Anthropic的產品相抗衡。

OpenRouter在報告中寫道：「過去18個月來，開源與閉源模型之間的差距穩定維持在3至6個月，且沒有跡象顯示閉源實驗室正在拉大差距。」該報告點名了2026年最值得關注的四個開源權重發布。

DeepSeek V4 Flash在成本效率方面領先。這款擁有2840億參數的混合專家模型於4月以MIT授權發布，在SWE-bench Verified測試中獲得79%的分數——僅比其Pro版本低1.6個百分點——而其輸出定價為每百萬個tokens僅28美分，約為OpenAI GPT-5.5成本的150分之一。由中國Z.ai於6月中旬發布的GLM 5.2，在Artificial Analysis的智慧指數（Intelligence Index）開源排行榜上以51分位居榜首，僅落後Anthropic現已遭禁用的Fable 5五個百分點。這款擁有7440億參數的模型完全在10萬塊華為昇騰910B晶片上訓練，未使用任何NVIDIA硬體，在SWE-bench Pro上獲得62.1分，領先GPT-5.5的58.6分。

這種趨同趨勢帶來了直接的投資意涵。根據OpenRouter的定價比較，企業若將編碼與agentic工作流程從封閉API遷移至開源權重模型，可將推理成本降低50倍至150倍。此一動態正在威脅OpenAI和Anthropic的定價能力，同時有利於支持自託管部署的基礎設施供應商——並且引發了對美國出口管制策略價值的質疑，因為GLM 5.2發布的同一週，華盛頓下令Anthropic限制外國公民使用Fable 5。

OpenRouter發現，DeepSeek V4 Flash已成為首個開發者 routinely 直接插入agentic工作流程、作為Anthropic或OpenAI系統替代品的開源權重模型。其Flash版本保留了Pro版本大部分的編碼能力——SWE-bench Verified上79%對比80.6%——同時輸出成本比GPT-5.5低150倍。DeepSeek於5月將其折扣定價永久化，鞏固了前沿智慧層級的價格戰。其代價是：該模型需要異常具體的提示詞，且在創意寫作和語氣控制方面表現不佳，限制了其在內容生成任務中的應用。

GLM 5.2的發布具有地緣政治分量。美國商務部於6月12日命令Anthropic對所有外國公民禁用Fable 5和Mythos 5，理由是一個Anthropic否認存在的越獄漏洞。五天後，Z.ai以MIT授權發布了GLM 5.2，讓全球開發者獲得了一個可下載並自託管的模型——不受任何未來出口管制令的影響。在基於盲人投票的Elo風格排行榜Code Arena上，GLM 5.2以1595分排名總榜第二，在Fable 5被移除後位居所有現有模型之首。在Design Arena上，它更直接奪得榜首。目前仍存在的差距體現在最困難的推理基準測試上：在測試抗數據污染的流體推理能力的ARC-AGI-2中，最佳中國模型僅得分11.8%，遠低於美國領先實驗室。

MiniMax M3則填補了不同的利基市場。它是四款模型中唯一原生理解文本、圖像、圖表和影片的模型，因此成為需要螢幕閱讀、UI自動化或視覺文檔解析的agentic工作流程的預設選擇。它在智慧指數上得分44，與DeepSeek V4 Pro相當，在真實世界的agentic任務上大致與Claude Sonnet 4.6持平。其定價——輸入token每百萬個9.8美分，輸出每百萬個1.21美元——在多模態工作負載上低於Google Gemini Flash，但其社群授權要求在商業使用時標註出處，大規模產品則需書面授權。

NVIDIA的Nemotron 3 Ultra代表了美國企業的對抗力量。這款擁有5500億參數的Mamba-2與Transformer混合模型，在智慧指數上得分48，雖然在原始基準測試上落後GLM 5.2，但在NVIDIA自家硬體堆疊上提供了卓越的部署效率。NVIDIA不僅開源了模型權重，還在OpenMDW授權下開源了訓練數據、配方、評估工具和強化學習基礎設施——這是一項旨在推動其晶片和軟體生態系統需求的策略。該模型的NVFP4精度與多token預測支援使其成為最注重部署速度、數據控制與供應商穩定性的企業的實用選擇。

對投資人而言，開源趨同創造了一個雙向押注的局面。NVIDIA等公司間接受益，因為開源權重的採用推動了推理硬體需求——Nemotron既是獨立產品，也是NVIDIA AI堆疊的銷售工具。但價格崩潰正威脅閉源API提供商的收入模式：當開源替代方案以150分之一的成本提供可比的編碼性能時，OpenAI和Anthropic面臨證明溢價定價合理的壓力。微軟在Azure上託管OpenAI的模型，若遷移至開源權重模型的企業選擇Azure作為管理基礎設施，則可能捕獲對沖性需求。關鍵風險在於：開源模型在生產環境中可能無法通過企業安全與合規測試，從而減緩採用速度並維持閉源的定價能力。

本文僅供資訊參考，不構成投資建議。