大型语言模型在股市择时方面最初看似有效,但根据6月25日发表的一项研究,其在长期及市场条件变化下无法超越基准。
大型语言模型在股市择时方面最初看似有效,但根据6月25日发表的一项研究,其在长期及市场条件变化下无法超越基准。

根据6月25日发表的一项研究,被吹捧用于股市择时的大型语言模型在长期内会失去优势,且无法在市场条件发生变化时做出调整。该研究对人工智能驱动交易策略的前提提出了质疑。
"LLM在市场择时任务中表现出强劲的初始表现,但随着评估窗口拉长和市场机制变化,这一优势逐渐消失,"该研究的主要作者表示。其研究测试了多个前沿模型在不同时间跨度下与买入并持有基准的比较。该论文尚未经过同行评审。
该研究测试了包括OpenAI的GPT-4和Anthropic的Claude在内的模型,任务包括预测标普500指数的方向性变动和板块轮动信号。虽然这些模型在模拟交易的前三个月内准确率超过55%——优于随机概率和简单动量策略——但在12个月周期内,表现降至接近基线水平。衰减在波动率飙升和趋势反转期间最为明显,模型未能调整其信号生成机制。
该研究发布之际,AI驱动投资工具的市场正在扩张。根据Preqin的数据,AI驱动的量化基金管理的资产规模已增长至约四千五百亿美元,Two Sigma、文艺复兴科技公司和桥水基金等机构正大力投资基于LLM的交易系统。研究表明,基于历史数据训练的模型可能编码了在市场微观结构变化时失效的模式——这一被称为"分布偏移"的问题长期困扰着量化策略。
通用模型为何难以驾驭市场
核心局限源于LLM的构建方式。这些模型通过数百万训练样本优化了广泛的语义理解能力,而非金融市场中狭隘的、依赖特定机制的运作模式。一个使用2020年至2024年文本训练的模型可能学会某些相关性——例如国债收益率下降推升科技股——但当宏观环境发生转变时,这种相关性可能反转,正如2022年美联储开启紧缩周期时所发生的那样。
这反映了基准测试公司ScaleDown AI发现的更广泛趋势。该公司最近发现,专注于特定任务的小型语言模型在狭隘的分类工作上比前沿LLM表现高出8%,同时运行成本便宜161倍。同样的原理也适用于市场择时:要求通用模型预测股票方向,意味着其要承载为无关任务训练的数十亿参数的开销,而专门构建的模型理论上可以将算力集中在市场特定信号上。
这对AI交易策略意味着什么
对投资者而言,该研究对AI驱动超额收益的持久性提出了疑问。如果基于LLM的择时策略会随时间推移退化,那么随着市场条件不可避免的转变,涌入AI增强型基金的四千五百亿美元可能面临业绩清算。研究指出,依赖现成前沿模型生成交易信号的机构,若缺乏持续的机制检测和模型重训,其优势将被侵蚀——而这些能力在规模化实施方面仍然昂贵且困难。
构建专有市场特定模型的量化对冲基金可能比使用通用LLM的机构表现更好,但该研究的发现广泛适用于任何基于历史价格模式训练且未明确处理机制变化的系统。论文建议,AI交易系统应引入基于波动率的门控机制,以在机制转变期间降低模型影响力——这一功能在目前大多数实现中尚属空白。
本文仅供信息参考,不构成投资建议。