重點摘要:
- Nvidia 推出 Cosmos 3,為首款全面開放的物理 AI 全能模型
- 該模型採用混合變壓器架構,整合視覺、語言與行動能力
- ARK Invest 估計,物理 AI 至 2040 年可解鎖 24 兆美元市場
重點摘要:

Nvidia 的 Cosmos 3 標誌著該晶片製造商進軍機器人技術的基礎 AI 模型領域,將視覺推理與多模態生成能力相結合。
Nvidia 推出的 Cosmos 3 是首款全面開放的物理 AI 全能模型,使該公司從 GPU 硬體領域進一步延伸至基礎模型領域,採用混合變壓器架構,用於世界模擬與機器人技術。
「Cosmos 3 是一款領先業界的開放式物理 AI 基礎模型,建立在突破性的混合變壓器架構之上,統一了視覺、語言與行動能力,」該公司在 6 月 1 日的公告中表示。
該模型支援原生視覺推理,並可生成文字、圖像、影片、環境音效及動作輸出,用於合成資料創建與物理 AI 策略開發。Nvidia 同時發布了 Alpamayo 2 Super,一個 320 億參數的開放式推理視覺-語言-行動模型,以及一系列開源物理 AI 代理技能,涵蓋其 Omniverse、Cosmos 與 Metropolis 平台。
此次進軍基礎模型領域,使 Nvidia 能夠在數據中心 GPU 業務之外創造更多價值——該業務在 2025 會計年度創造了 620 億美元營收。物理 AI(涵蓋自動駕駛汽車、倉儲機器人與工業自動化)代表了一個全新的可觸及市場。若 Cosmos 成為機器人開發的標準平台,將有望支撐該公司 35 倍遠期本益比。
Cosmos 3 所採用的混合變壓器架構,在技術上與 Nvidia 過去的 AI 模型截然不同。與其順序處理文字的大型語言模型不同,Cosmos 3 能同時處理視覺、語言與行動數據,從而模擬物理世界中的互動——這正是訓練機器人與自動化系統所需的能力,無需在真實世界中進行反覆試錯。
開源發布策略與 Meta 在其 Llama 系列語言模型上的做法相似,使 Cosmos 3 有望成為機器人研究與開發的標準。透過免費提供該模型,Nvidia 旨在建立一個依賴其硬體進行訓練與推理的開發者與企業網絡,為其 GPU 業務構築一道軟體護城河。
競爭格局遠不止於 Nvidia 的直接晶片競爭對手。Tesla 正在開發自有 AI 模型,用於自動駕駛與人形機器人;Google DeepMind 則透過其 MuJoCo 與 Gemini 平台大力投入物理世界模擬領域。Amazon 透過其機器人事業部,既是潛在客戶,也是倉儲自動化領域的競爭對手。
對投資人而言,問題在於 Cosmos 3 能否將網絡採用率轉化為 GPU 需求。每一次物理 AI 訓練都需要數千顆 Nvidia GPU——單次機器人模型訓練可能需要 10,000 至 25,000 顆 H100 同等級 GPU,並持續數週。如果 Cosmos 3 成為物理 AI 開發的預設平台,它可能推動新一輪的數據中心資本支出,超越當前大型語言模型的建置規模。
Nvidia 股價在過去 12 個月內上漲了 140%,主要受微軟、Amazon 與 Google 的 AI 基礎設施支出推動。Cosmos 3 的推出將市場敘事從數據中心 GPU 延伸至機器人技術與物理 AI,ARK Invest 估計該市場至 2040 年全球營收可達 24 兆美元。
本文僅供資訊參考,不構成投資建議。