Nvidia 推出 Cosmos 3，首款開放式物理 AI 全能模型

Nvidia 的 Cosmos 3 標誌著該晶片製造商進軍機器人技術的基礎 AI 模型領域，將視覺推理與多模態生成能力相結合。

Nvidia 推出的 Cosmos 3 是首款全面開放的物理 AI 全能模型，使該公司從 GPU 硬體領域進一步延伸至基礎模型領域，採用混合變壓器架構，用於世界模擬與機器人技術。

「Cosmos 3 是一款領先業界的開放式物理 AI 基礎模型，建立在突破性的混合變壓器架構之上，統一了視覺、語言與行動能力，」該公司在 6 月 1 日的公告中表示。

該模型支援原生視覺推理，並可生成文字、圖像、影片、環境音效及動作輸出，用於合成資料創建與物理 AI 策略開發。Nvidia 同時發布了 Alpamayo 2 Super，一個 320 億參數的開放式推理視覺-語言-行動模型，以及一系列開源物理 AI 代理技能，涵蓋其 Omniverse、Cosmos 與 Metropolis 平台。

此次進軍基礎模型領域，使 Nvidia 能夠在數據中心 GPU 業務之外創造更多價值——該業務在 2025 會計年度創造了 620 億美元營收。物理 AI（涵蓋自動駕駛汽車、倉儲機器人與工業自動化）代表了一個全新的可觸及市場。若 Cosmos 成為機器人開發的標準平台，將有望支撐該公司 35 倍遠期本益比。

Cosmos 3 所採用的混合變壓器架構，在技術上與 Nvidia 過去的 AI 模型截然不同。與其順序處理文字的大型語言模型不同，Cosmos 3 能同時處理視覺、語言與行動數據，從而模擬物理世界中的互動——這正是訓練機器人與自動化系統所需的能力，無需在真實世界中進行反覆試錯。

開源發布策略與 Meta 在其 Llama 系列語言模型上的做法相似，使 Cosmos 3 有望成為機器人研究與開發的標準。透過免費提供該模型，Nvidia 旨在建立一個依賴其硬體進行訓練與推理的開發者與企業網絡，為其 GPU 業務構築一道軟體護城河。

競爭格局遠不止於 Nvidia 的直接晶片競爭對手。Tesla 正在開發自有 AI 模型，用於自動駕駛與人形機器人；Google DeepMind 則透過其 MuJoCo 與 Gemini 平台大力投入物理世界模擬領域。Amazon 透過其機器人事業部，既是潛在客戶，也是倉儲自動化領域的競爭對手。

對投資人而言，問題在於 Cosmos 3 能否將網絡採用率轉化為 GPU 需求。每一次物理 AI 訓練都需要數千顆 Nvidia GPU——單次機器人模型訓練可能需要 10,000 至 25,000 顆 H100 同等級 GPU，並持續數週。如果 Cosmos 3 成為物理 AI 開發的預設平台，它可能推動新一輪的數據中心資本支出，超越當前大型語言模型的建置規模。

Nvidia 股價在過去 12 個月內上漲了 140%，主要受微軟、Amazon 與 Google 的 AI 基礎設施支出推動。Cosmos 3 的推出將市場敘事從數據中心 GPU 延伸至機器人技術與物理 AI，ARK Invest 估計該市場至 2040 年全球營收可達 24 兆美元。

本文僅供資訊參考，不構成投資建議。