中國MedGPT在新型AI安全測試中超越谷歌和OpenAI

新基準採用30項指標評估醫療AI

2026年2月4日，中國AI公司未來醫生與32位臨床專家合作，在《npj數字醫學》上發布了一項新的評估框架，以解決醫療AI領域的一個關鍵空白。“臨床安全-有效性雙軌基準”（CSEDB）旨在衡量大型語言模型在真實世界臨床決策中是否安全有效，超越了常規的準確性測試，後者往往會遺漏諸如症狀遺漏或禁忌建議等關鍵性故障。

該基準通過使用覆蓋26個醫學專業的2,069個開放式問題來模擬複雜的臨床推理，從而建立了更嚴格的測試環境。其評分系統基於30個不同的指標，其中17個側重於安全性，13個側重於有效性。該框架是在包括北京協和醫院在內的中國頂尖醫療機構的投入下開發的，旨在為這個快速發展的領域標準化“安全有效”的定義。

未來醫生MedGPT排名第一，超越谷歌和OpenAI

一項應用CSEDB框架的比較研究發現，未來醫生公司的專有MedGPT模型在總體、安全性和有效性得分上均取得了最高成績。該模型超越了包括OpenAI的o3、谷歌的Gemini 2.5 Pro和Anthropic的Claude 3.7 Sonnet在內的幾個領先的通用系統。研究強調，雖然通用模型表現出高效率，但其安全性能往往滯後，這種差異在醫療應用中至關重要。

這一結果給醫療保健行業提出了一個關鍵問題：臨床AI的需求是更好地由功能強大但通用的系統來滿足，還是由從一開始就專門為安全性優化的模型來滿足。MedGPT強大的安全配置文件表明，在風險緩解至關重要的領域，專業系統可能具有競爭優勢。

基準可能為醫療保健領域的AI採購設定新標準

如果CSEDB框架獲得行業採納，它可能會從根本上改變醫療服務提供商評估和購買AI技術的方式。焦點將從簡單地詢問AI是否能回答醫學問題，轉向確定它是否能在真實世界的臨床限制下安全可靠地運行。這樣一個標準可能會成為AI部署、監管監督和採購決策基礎設施的重要組成部分。

對於AI開發者，特別是大型科技公司而言，CSEDB等基準可能會增加他們證明其模型臨床安全性（而不僅僅是通用智能）的壓力。未來醫生公司表示，其MedGPT旨在支持臨床醫生，其在實踐中的使用將受到當地法規和機構規則的約束，這使得該公司在一個日益關注可衡量安全標準的醫療保健市場中佔據有利地位。