새로운 벤치마크, 30가지 지표로 의료 AI 평가
2026년 2월 4일, 중국 기반 AI 기업 Future Doctor는 32명의 임상 전문가와 협력하여 npj Digital Medicine에 의료 AI 분야의 중요한 격차를 해소하기 위한 새로운 평가 프레임워크를 발표했습니다. "임상 안전성-효과성 이중 트랙 벤치마크"(CSEDB)는 대규모 언어 모델이 실제 임상 결정에 안전하고 효과적인지 측정하도록 설계되었으며, 증상 누락 또는 금기 조언과 같은 치명적인 오류를 종종 놓치는 표준 정확도 테스트를 넘어섭니다.
이 벤치마크는 26개 의료 전문 분야에 걸쳐 2,069개의 개방형 질문을 사용하여 복잡한 임상 추론을 시뮬레이션함으로써 더욱 엄격한 테스트 환경을 구축합니다. 채점 시스템은 30가지의 고유한 지표를 기반으로 하며, 17개는 안전성에, 13개는 효과성에 중점을 둡니다. 이 프레임워크는 베이징 협화 병원을 포함한 중국의 선도적인 의료 기관들의 의견을 반영하여 개발되었으며, 빠르게 성장하는 이 분야에서 "안전하고 효과적"이라는 정의를 표준화하는 것을 목표로 합니다.
Future Doctor의 MedGPT가 구글과 OpenAI를 능가하며 1위 차지
CSEDB 프레임워크를 적용한 비교 연구에서 Future Doctor의 독점 MedGPT 모델이 전반적인 안전성 및 효과성 점수에서 가장 높은 점수를 기록했습니다. 이 모델은 OpenAI의 o3, Google의 Gemini 2.5 Pro, Anthropic의 Claude 3.7 Sonnet을 포함한 여러 선도적인 범용 시스템을 능가했습니다. 연구는 범용 모델이 높은 효과성을 보여주지만, 안전성 성능은 종종 뒤처져 의료 분야 응용에서 중요한 차이를 만든다는 점을 강조했습니다.
이 결과는 의료 산업에 중요한 질문을 제기합니다: 임상 AI 요구 사항이 고성능이지만 범용 시스템에 의해 더 잘 충족될 것인지, 아니면 처음부터 안전성을 위해 특별히 최적화된 모델에 의해 더 잘 충족될 것인지. MedGPT의 강력한 안전성 프로필은 위험 완화가 가장 중요한 부문에서 전문화된 시스템이 경쟁 우위를 가질 수 있음을 시사합니다.
벤치마크, 의료 분야 AI 조달의 새로운 표준 설정 가능성
CSEDB 프레임워크가 업계에서 채택된다면, 의료 서비스 제공업체가 AI 기술을 평가하고 구매하는 방식을 근본적으로 바꿀 수 있습니다. 초점은 AI가 의료 질문에 답할 수 있는지 여부를 묻는 것에서, 실제 임상 제약 조건 하에서 안전하고 안정적으로 작동할 수 있는지 여부를 결정하는 것으로 전환될 것입니다. 이러한 표준은 AI 배포, 규제 감독 및 조달 결정 인프라의 필수적인 부분이 될 수 있습니다.
AI 개발자, 특히 대규모 기술 기업의 경우, CSEDB와 같은 벤치마크는 일반 지능뿐만 아니라 모델의 임상 안전성을 입증해야 하는 압력을 증가시킬 수 있습니다. Future Doctor는 자사의 MedGPT가 임상의를 지원하도록 설계되었으며, 실제 사용은 현지 규제 및 기관 규칙에 따라 관리될 것이라고 밝혔으며, 이는 회사를 측정 가능한 안전 표준에 점점 더 중점을 두는 의료 시장에 포지셔닝합니다.