Anthropic, 안전 장치 적용한 미토스(Mythos)급 AI 모델 2종 출시

Anthropic은 6월 9일, 사이버 보안 및 생물학 분야에서 고위험 응답을 차단하는 안전 장치를 개발한 후, 최초로 널리 사용 가능한 버전을 포함한 두 가지 미토스(Mythos)급 AI 모델을 출시했다. 이들 분야는 이전에 회사가 대중 공개하기에는 너무 위험하다고 판단했던 영역이다.

Anthropic은 블로그 게시물을 통해 "Fable 5는 소프트웨어 엔지니어링, 지식 작업 및 비전 분야에서 탁월한 성능을 보여주며, 작업이 더 길고 복잡해질수록 다른 모델에 비해 그 격차가 더 벌어지고 있다"고 밝혔다.

일반 공급용 Claude Fable 5와 승인된 조직용 Claude Mythos 5라는 두 모델은 동일한 기반 기술로 구축되었다. 회사에 따르면 Fable 5는 여러 벤치마크에서 Claude Opus 4.8보다 10% 이상 뛰어난 성능을 보인다. 가격은 입력 토큰 100만 개당 10달러, 출력 토큰 100만 개당 50달러로 책정되어 Opus 4.8의 두 배 가격이지만 Mythos Preview 티어 비용의 절반 수준이다.

이번 출시는 Anthropic이 고성능 AI가 오용될 위험을 이유로 Mythos Preview 모델에 대한 접근을 제한한 지 두 달 만에 이루어졌다. 회사는 이후 기업공개(IPO)를 위해 기밀로 신청했으며, 이번 광범위한 출시는 내부 및 외부 레드티밍(red-teaming) 테스트를 거친 안전 메커니즘이 동기가 있는 공격자들을 막아낼 수 있다는 자신감을 시사한다.

자기 개선 궤적

Anthropic의 접근 확대 결정은 연구원 Marina Favaro와 공동 창업자 Jack Clark이 AI 시스템이 "재귀적 자기 개선(recursive self-improvement)" 단계에 접근하고 있다고 경고한 6월 4일 블로그 게시물에 따른 것이다. 이는 모델이 최소한의 인간 감독으로 스스로를 개선할 수 있는 단계를 의미한다. 회사는 Claude 기반 에이전트가 2026년 4월에 개방형 AI 안전 연구 프로젝트를 완료했으며, 인간 연구원이 일주일 동안 성능 격차의 약 23%를 회복하는 동안 Claude 에이전트는 97%를 회복했다는 내부 데이터를 공개했다.

새로 출시된 모델의 전신인 Claude Mythos Preview는 최적화 작업에서 기준 코드 대비 52배의 속도 향상을 달성했으며, 숙련된 인간 연구원이 4배 개선을 달성하는 데 4~8시간이 필요했다. 회사에 따르면 Claude는 현재 Anthropic의 새로운 프로덕션 코드 중 약 80%를 작성하고 있으며, 복잡한 엔지니어링 문제의 성공률은 2026년 5월 76%로 상승했다.

Claude가 안정적으로 처리할 수 있는 작업 시간 범위는 약 4개월마다 두 배씩 증가하여, 2024년 초 수분 단위 작업에서 현재 12시간 작업으로 확장되었다. Anthropic은 2027년까지 주 단위 자율 작업을 전망하고 있다.

안전장치 대 공격자

Anthropic은 Fable 5가 재택 시도(jailbreak attempts)를 포함한 일반적인 AI 취약점을 식별하기 위해 고안된 광범위한 내부 및 외부 레드티밍 테스트를 거쳤다고 밝혔다. 회사에 따르면 테스트 결과 모델의 안전장치를 일관되게 우회할 수 있는 알려진 "범용" 재택 기술은 발견되지 않았다. 테스트에서 Fable 세션의 95%는 Opus 4.8로 대체되지 않고 전적으로 Fable 응답으로 실행되었다.

그럼에도 회사는 사이버 보안 연구원들이 역사적으로 초기 AI 모델의 안전 메커니즘을 우회하는 방법을 찾아왔음을 인정했다. Anthropic은 "미토스 수준의 역량 향상은 많은 공격자에게 가치가 있습니다. 예를 들어 사이버 공격으로 재정적 이득을 볼 수 있는 이들에게 특히 그렇습니다. 따라서 그들이 우리의 안전 조치를 우회하려 동기를 가질 것으로 예상합니다"라고 말했다.

Anthropic의 Project Glasswing 이니셔티브를 통해 이미 승인된 조직이 이용할 수 있는 Claude Mythos 5는 일부 영역에서 안전장치가 해제된 동일한 기반 모델을 제공한다. 회사는 시간이 지남에 따라 보다 체계적인 신뢰 기반 접근 프로그램을 통해 접근 범위를 확대할 계획이라고 밝혔다.

경쟁 구도와 투자자 영향

이번 출시는 Anthropic이 기업 AI 시장에서 OpenAI 및 Google과 더 직접적으로 경쟁할 수 있는 위치를 확보했으며, 추론 가격과 안전 보장이 핵심 차별화 요소로 작용한다. Fable 5의 출력 토큰 100만 개당 50달러는 많은 공개 모델보다 프리미엄 가격으로, 기업들이 더 강력한 안전장치를 갖춘 모델에 더 높은 비용을 지불할 의향이 있다는 회사의 판단을 반영한다.

최근 몇 주간 보도된 Anthropic의 기밀 IPO 신청은 매출 성장에 대한 명확한 경로를 입증해야 하는 부담을 가중시킨다. 이전 Dallas Express의 보도에 따르면, 한 이름 없는 기업 고객은 제한 없는 사용으로 인해 단일 월에 Claude에서 약 5억 달러의 비용이 발생했으며, 이는 강력한 AI 시스템과 관련된 수요와 비용 위험을 모두 강조한다.

펜실베이니아 대학교 와튼 스쿨의 Ethan Mollick 교수는 일부 비평가들이 Anthropic의 안전 메시지를 홍보용으로 보지만, 회사 내 많은 사람들이 '진정한 신봉자(true believers)'라고 월스트리트 저널이 보도했다. AI에 관한 그의 저서 "Co-Existence"는 올 가을 출간될 예정이다.

본 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.