AI 职业预测并不可靠，三大模型对风险存在分歧

一项新研究揭示，预测失业的 AI 模型自身在哪些职业将受冲击的问题上无法达成共识，分歧率高达 25%。

一项最新研究发现，全球领先的人工智能模型对哪些工作最容易被自动化取代产生了各异且往往相互矛盾的预测，这引发了人们对 AI 驱动的经济预测可靠性的质疑。这份由美国国家经济研究局（NBER）发布的进展报告强调了一个已成为政策制定者和劳动者共同关注的紧迫领域的这种不确定性，显示出三大顶尖模型在就业风险评估上存在分歧。

“我个人不会仅依靠一种衡量标准来断言，‘哦，我应该换个工作’，或者‘我应该让我孩子换个专业’，”该研究的作者之一、西北大学的蜜雪儿·尹（Michelle Yin）表示。研究表明，虽然 AI 正被用于预测其自身的影响，但结果远非一致，因此呼吁大家保持谨慎，不要盲目相信这些预测。

这项研究由尹、西北大学的华·武（Hoa Vu）以及美利坚大学的克劳迪娅·佩西科（Claudia Persico）共同撰写，审查了三大 AI 模型的职业暴露排名：OpenAI 的 ChatGPT-5、Google Deepmind 的 Gemini 2.5 以及 Anthropic 的 Claude 4.5。例如，Claude 认为会计师极易受到 AI 的影响，而 Gemini 给出的风险评估则要低得多。这些模型在广告经理和首席执行官等职位的脆弱性评估上也存在分歧。

这些发现对依赖 AI 生成的“暴露得分”进行战略劳动力规划的投资者和公司构成了挑战。由于 ChatGPT 和 Gemini 在约四分之一的时间里意见不一，该研究表明，当前一代 AI 可能反映的是现有的采用偏差，而非对未来颠覆的清晰洞察。

模型间的分歧

研究的核心涉及向 AI 模型输入来自劳工部数据库的任务，以观察它们能够执行哪些任务。经济学家发现，模型之间的一致性水平惊人地低。虽然 ChatGPT 和 Gemini 的一致性最高，但它们在很大一部分职业的评估上仍给出了不同的判断。

这种分歧至关重要，因为这些暴露得分正日益被用于咨询白皮书、研究笔记和政策报告，以指导有关劳动力培训和支持的决策。研究认为，其中一些差异可能源于模型的训练数据；金融分析等领域的早期采用者会产生更多与 AI 相关的数据，这反过来可能导致模型将这些职业评为更易受影响。

对劳动力规划的影响

这些 AI 生成得分的不可靠性具有重大影响。试图为失业工人设计支持系统的政策制定者，以及建议学生选择“防 AI”职业的教育机构，可能都在根据有缺陷的数据进行操作。经济学家建议，研究人员不应依赖单一的 AI 模型，而应参考多种模型，并对预测的不确定性保持透明。

对于投资者而言，这项研究警示不要基于过于简单的 AI 取代叙事进行行业性押注。AI 模型之间缺乏共识表明，对劳动力市场的实际影响将比许多报告所暗示的更加微妙且难以预测。任何给定工作的真实暴露程度，与其说取决于模型的理论能力，不如说取决于 AI 在整个经济中的实际实施方式，这一过程需要更稳健的调查和人机回环（human-in-the-loop）分析。

本文仅供参考，不构成投资建议。