新研究發現 AI 股市擇時長期失效

根據6月25日發布的一項研究，被譽為能進行股市擇時的大型語言模型，在長期持有下會失去優勢，且無法在市場條件轉變時適應，這項研究對 AI 驅動交易策略的前提提出了挑戰。

「LLM 在市場擇時任務中展現出強勁的初期表現，但隨著評估窗口拉長以及市場制度改變，這項優勢會逐漸消失，」該研究的首席作者表示。其研究在多個時間區間內，測試了多種前沿模型與買入持有基準的比較。該論文尚未經過同儕審查。

這項研究測試了包括 OpenAI 的 GPT-4 和 Anthropic 的 Claude 在內的模型，執行如預測標普500指數方向性走勢及板塊輪動訊號等任務。雖然這些模型在模擬交易的前三個月內，準確率超過55%——擊敗了隨機機率和簡單的動能策略——但在12個月的期間內，其表現卻降至接近基線水準。績效衰減在波動率飆升和趨勢逆轉期間最為明顯，模型在這些情況下未能調整其訊號生成機制。

這項研究結果出爐之際，AI 驅動的投資工具市場正在擴張。根據 Preqin 的數據，AI 驅動量化基金的管理資產規模已成長至約4500億美元，包括 Two Sigma、文藝復興科技（Renaissance Technologies）以及橋水基金（Bridgewater Associates）等公司，都在大力投資基於 LLM 的交易系統。該研究指出，基於歷史數據訓練的模型，可能會編碼出在市場微觀結構改變時失效的模式——這個被稱為「分布轉移」的問題長期以來一直困擾著量化策略。

為何通用型模型在市場中表現掙扎

核心限制源於 LLM 的建構方式。這些模型旨在優化對數百萬個訓練範例的廣泛語言理解，而非驅動金融市場的狹隘、制度依賴型模式。一個在2020年至2024年文字資料上訓練的模型，可能會學到某些相關性——例如美債殖利率下跌推升科技股——但當宏觀環境發生變化時，這些相關性可能會逆轉，正如聯準會在2022年開始緊縮週期時所發生的情況。

這反映了一個更廣泛的趨勢，由基準測試公司 ScaleDown AI 所發現，該公司最近指出，任務專用的小型語言模型在狹義分類工作上的表現比前沿 LLM 高出8%，同時運算成本便宜161倍。同樣的原則也適用於市場擇時：一個要求預測股票方向的通用型模型，背負著數十億個為不相關任務訓練的參數，而一個專門打造的模型理論上可以將容量集中在市場特定訊號上。

這對 AI 交易策略意味著什麼

對投資人而言，這項研究對 AI 驅動阿爾法（alpha）的持久性提出了質疑。如果基於 LLM 的擇時策略會隨時間退化，那麼隨著市場條件不可避免地轉變，流入 AI 強化基金的4500億美元可能面臨績效的清算。研究指出，依賴現成前沿模型獲取交易訊號的公司，若沒有持續的市場制度偵測和模型重新訓練——這些能力依然昂貴且難以大規模實施——其優勢可能會被侵蝕。

那些建立專有、市場特定模型的量化避險基金，可能比使用通用型 LLM 的基金表現更好，但該研究的發現廣泛適用於任何在沒有明確市場制度變化處理機制下，基於歷史價格模式訓練的系統。該論文建議，AI 交易系統應納入基於波動率的閘控機制，以在市場制度轉變期間降低模型的影響力——這是當前大多數實作中所缺少的功能。

本文僅供資訊參考，不構成投資建議。