Anthropic의 페이블 5, 19일 만에 복귀…과도한 안전장치로 개발자들 '난감'

Anthropic의 최고 성능 AI 모델이 다시 온라인에 돌아왔지만, 급히 배포된 안전 시스템이 무해한 코드 요청까지 차단하며 사용자들을 약한 모델로 강제 전환시키고 있다.

Anthropic은 19일간의 중단 이후 7월 1일 페이블 5에 대한 접근을 복원했지만, 새로운 안전 분류기가 일상적인 코딩 작업에서 오탐지를 유발하며 개발자들을 덜 강력한 Opus 4.8로 몰아넣고 있다. 이 모델은 회사가 대중에게 공개한 첫 번째 Mythos급 시스템으로, Amazon 주도로 안전장치를 우회하는 프롬프트 기술이 발견된 이후 트럼프 행정부가 수출 통제를 시행하면서 6월에 오프라인 상태가 되었다.

"새 분류기는 일상적인 프로그래밍 및 디버깅 작업에서 저희가 원하는 수준보다 더 높은 오탐지율을 보이고 있습니다,"라고 Anthropic은 재배포를 알리는 블로그 게시물에서 밝혔다. 상무부 요구사항을 준수하기 위해 추가된 이 안전장치는 위험하다고 판단되는 요청을 가로채 사용자에게 경고 없이 Opus 4.8로 라우팅한다.

7월 7일까지 자격을 갖춘 Pro, Max, Team 및 일부 Enterprise 구독자는 추가 크레딧을 소모하기 전까지 주간 사용 할당량의 최대 50%를 페이블 5에 할당할 수 있다. 이 모델은 Opus 4.8보다 크레딧 소모 속도가 빨라 사용자 불만을 가중시키고 있다. 7월 7일 이후에는 모든 페이블 5 사용에 크레딧이 필요하다.

이번 논란은 AI 안전 규제와 제품 사용성 사이의 긴장 관계를 여실히 보여준다. 이러한 역학은 기업의 고급 모델 도입 속도를 늦추고 개발자들을 중앙 집중식 안전장치 없이 운영되는 DeepSeek 및 기타 제공업체의 오픈 웨이트 대안으로 몰아갈 수 있다.

나무와 드론도 구분 못하는 분류기

Reddit의 한 지구과학 박사 과정 학생은 나무가 주변 온도를 낮추는 방식에 대한 연구에 페이블 5를 사용하려 했다고 설명했다. 분류기가 이 요청을 차단하고 그를 Opus 4.8로 전환시켰다. 그가 DJI의 SDK를 사용해 드론 군집을 제어하는 코드를 요청하며 시스템을 테스트했을 때, 페이블 5는 중단 없이 완벽한 솔루션을 제공했다.

"이것은 안전 시스템이 아니라 무작위 게이트입니다,"라고 해당 연구원은 적었다.

Anthropic은 재배포 게시물에서 이 문제를 인정하며, 분류기가 Amazon 연구원들이 식별한 특정 프롬프트 기술을 99% 이상의 경우에서 차단하지만, 무해한 요청에 대한 빈번한 오경보라는 대가를 치르고 있다고 밝혔다. 회사는 얼마나 많은 사용자 세션이 영향을 받았는지는 공개하지 않았다.

오탐지 문제는 페이블 5의 핵심 강점이 복잡한 다단계 코딩 작업에 있기 때문에 특히 치명적이다. 이 모델을 테스트한 개발자들은 분류기에 의해 중단되지 않을 때 장기 에이전트 작업에서 공개적으로 이용 가능한 어떤 모델보다 뛰어난 성능을 보이며 SWE-Bench Pro 벤치마크에서 80% 이상을 기록한다고 보고했다. 한 개발자는 페이블 5를 사용해 20분 만에 공공 소스에서 실제 건물 데이터를 가져와 Blender에 뉴욕시의 스카이라인을 재구성했다. 또 다른 개발자는 4개의 프롬프트로 $173 상당의 토큰을 사용해 처음부터 완전한 게임을 제작했다.

Anthropic, 업계 안전 표준 마련 추진

향후 규제 교착 상태를 방지하기 위해 Anthropic은 Amazon, Microsoft, Google과 협력해 AI 탈옥 심각도를 평가하는 표준화된 프레임워크를 만들고 있다. 제안된 시스템은 능력 향상, 향상 범위, 무기화 난이도, 발견 가능성 등 네 가지 차원에 걸쳐 익스플로잇을 평가한다. 모든 범주에서 최고치를 기록하는 익스플로잇(예: 중요 인프라를 교란할 수 있는 기술)만이 즉각적인 완화 조치가 필요한 최고 경보 수준을 촉발하게 된다.

Anthropic은 또한 정부 기관에 향후 모델의 안전 테스트를 위한 사전 출시 접근 권한을 제공하고, 취약점 정보를 신속하게 공유하며, 페이블 5를 위한 HackerOne 버그 바운티 프로그램에 자금을 지원하기로 합의했다. 하워드 러트닉 상무장관은 서한에서 제한 조치가 해제되었음을 확인하며, Anthropic이 "모델이 제기하는 보안 위험을 사전에 탐지하고 해결하는 데 동의했다"고 밝혔다.

이번 사태는 중앙 집중식 안전장치 없이 운영되며 코딩 벤치마크에서 경쟁력 있는 성능을 입증한 DeepSeek의 V4-Pro와 같은 오픈 웨이트 모델 제공업체에 유리하게 작용할 수 있다. AI 도입의 핵심 이해관계자인 개발자들 사이에서 Anthropic의 신뢰도는 타격을 입었으며, 페이블 5의 역량을 수익화할 수 있는 회사의 능력은 분류기의 오탐지 문제 해결에 달려 있다. Anthropic은 페이블 5의 토큰당 가격을 공개하지 않았지만 7월 7일 이후 사용 크레딧이 적용될 것이라고 밝혔다.

본 문서는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.