Anthropic의 새로운 중간급 모델이 최상위 모델에 준하는 에이전트 성능을 극히 일부의 비용으로 제공하며, 회사의 대규모 IPO를 앞두고 AI 가격 전쟁을 격화시키고 있다.
Anthropic의 새로운 중간급 모델이 최상위 모델에 준하는 에이전트 성능을 극히 일부의 비용으로 제공하며, 회사의 대규모 IPO를 앞두고 AI 가격 전쟁을 격화시키고 있다.

Anthropic은 화요일 중간급 모델인 클로드 소네트 5(Claude Sonnet 5)를 출시했다. 이 모델은 주요 벤치마크에서 플래그십 모델인 오퍼스 4.8(Opus 4.8)과 동등하거나 근접한 성능을 보이면서도 토큰당 비용은 60% 낮다. 에이전트 역량이 기초 모델 업계 전반의 새로운 기준이 되어가는 상황에서 나온 전략적 행보다.
"이 모델은 계획을 세우고, 브라우저 및 터미널과 같은 도구를 사용하며, 불과 몇 달 전만 해도 더 크고 비용이 많이 드는 모델이 필요했던 수준에서 자율적으로 작동할 수 있다"고 Anthropic은 블로그 게시물에서 밝혔다.
소네트 5는 에이전트 코딩 벤치마크인 SWE-bench Pro에서 63.2%를 기록했다. 이는 소네트 4.6의 58.1%에서 상승한 수치이며, 오퍼스 4.8의 69.2%에 근접한 결과다. 지식 작업 벤치마크인 GDPval-AA v2에서는 플래그십 모델을 넘어서 1,618점을 기록했으며, 오퍼스 4.8은 1,615점을 기록했다. 초기 API 가격은 8월 31일까지 입력 토큰 100만 개당 2달러, 출력 토큰 100만 개당 10달러로 책정됐으며, 이후 각각 3달러와 15달러로 인상된다. 이는 여전히 오퍼스 4.8의 5달러와 25달러보다 크게 낮은 수준이다.
이번 출시는 Anthropic이 IPO를 향해 빠르게 나아가는 가운데 이뤄졌다. 이 IPO는 비상장 AI 기업의 밸류에이션이 공개 시장의 평가를 견뎌낼 수 있을지를 시험대에 올릴 것이다. 회사는 5월 시리즈H 펀딩 이후 연간 매출 실행률 470억 달러를 보고했지만, 외부 관찰자 누구도 확인하지 못한 총마진(gross margin)이 그 스토리가 유지될지를 결정할 것이라고 PitchBook의 애널리스트 해리슨 롤페스는 전했다.
에이전트 신뢰성, 파일럿과 프로덕션 간 격차를 좁히다
얼리 액세스 파트너들은 소네트 5가 이전 모델들이 중간에 멈췄던 멀티스텝 워크플로우를 완료한다고 보고했다. Zapier의 선임 엔지니어 대니얼 셰퍼드는 "이전 버전에서는 중간에 멈추곤 했던" Salesforce 계정 등급 업데이트와 출시 공지 발송이라는 2단계 자동화 작업을 이 모델이 완료했다고 말했다. Cursor의 공동 창업자 수알레 아시프는 "클로드 소네트 5와 함께라면 에이전트가 계획에 따라 움직이고, 우리의 관행을 따르며, 효율적인 비용으로 깔끔한 멀티스텝 변경 사항을 제공한다"고 말했다.
이러한 평가는 많은 기업이 에이전트 AI를 파일럿 프로그램에서 실제 운영 단계로 전환하지 못하게 막아온 신뢰성 격차를 해소하는 데 초점이 맞춰져 있다. 전체 워크플로우를 완료하는 모델은 자동화의 경제성을 변화시키며, 특히 소네트 5의 가격대에서 그 효과는 더욱 두드러진다. Anthropic은 개발자가 소네트 5와 오퍼스 4.8 간의 노력 수준을 조정하여 특정 사용 사례에 최적의 비용과 정확성 균형을 찾을 수 있는 비용-성능 곡선을 도입했다.
이번 출시는 경쟁사들의 유사한 움직임을 반영한다. OpenAI의 GPT-5.6 Sol은 지난주 프리뷰 버전으로 출시되어 사용자가 더 긴 자율 작업을 위해 하위 에이전트 간에 작업을 분할할 수 있게 해준다. 5월에 출시된 Google의 Gemini 3.5 Flash는 대화형 챗봇에서 에이전트 도구로의 전환으로 포지셔닝됐다. 이러한 패턴은 에이전트 역량이 이제 모든 가격대에서 기본 요건이 되었으며, 차별화 포인트는 인간의 감독 없이도 효율성과 신뢰성으로 이동하고 있음을 확인시켜준다.
안전성은 개선됐지만, 최고 성능 모델에는 미치지 못해
Anthropic의 내부 평가에 따르면 소네트 5는 소네트 4.6보다 환각(hallucination) 및 아첨(sycophancy) 비율이 낮고, 악의적 요청을 거부하는 능력이 더 뛰어나며, 에이전트 맥락에서의 프롬프트 인젝션 공격에 대한 저항성이 더 높다. 회사의 자동화된 행동 감사에서 소네트 5는 전반적으로 전작보다 더 안전한 것으로 낮은 점수(낮을수록 안전)를 기록했다.
그러나 오퍼스 4.8 및 Anthropic의 엄격하게 제한된 사이버보안 모델인 클로드 미토스 프리뷰(Claude Mythos Preview)와 비교할 때, 정렬되지 않은 행동의 비율이 다소 높게 나타났다. Mozilla와 함께 개발된 Firefox 147 익스플로잇 개발 평가에서 소네트 모델 모두 작동 가능한 익스플로잇을 개발하지 못했으며, 두 모델 모두 0%를 기록했다. 다만 소네트 5는 13.2%의 부분 성공률을 보여 소네트 4.6의 8.8%보다 다소 높았다. 오퍼스 4.8은 68.8%, 미토스 5는 88.4%를 기록했다.
이러한 점진적인 개선으로 인해 Anthropic은 소네트 5를 기본적으로 사이버 보호 장치가 활성화된 상태로 출시했다. 이는 위험한 사이버보안 사용을 탐지하고 차단하는 실시간 시스템이다. 이 보호 장치는 오퍼스 4.7 및 4.8의 것과 유사하지만, 페이블 5(Fable 5) 및 미토스 5에 적용된 것보다는 덜 제한적이다.
한 가지 기술적 세부 사항은 주목할 만하다: 소네트 5는 업데이트된 토크나이저를 사용하여 모델이 텍스트를 처리하는 방식을 변경했다. 이는 Anthropic이 오퍼스 4.7에서 도입한 변화와 유사하다. 동일한 입력이 콘텐츠 유형에 따라 약 1.0배에서 1.35배 더 많은 토큰으로 매핑될 수 있다. Anthropic은 초기 가격이 이러한 전환을 "대략 비용 중립적"으로 만들도록 조정되었다고 밝혔지만, 대용량 워크로드를 운영하는 엔터프라이즈 고객은 청구 금액이 변하지 않을 것이라고 가정하기 전에 특정 사용 사례를 벤치마킹해야 한다.
IPO 스토리와 소네트 5가 투자자에게 의미하는 바
Anthropic의 재무 궤적은 놀라웠다. 2월에 회사는 1,400억 달러의 연간 매출을 바탕으로 3,800억 달러의 밸류에이션에 300억 달러를 조달했다. 5월 말에는 470억 달러 이상의 매출 실행률로 9,650억 달러의 포스트머니 밸류에이션에 650억 달러 규모의 시리즈H를 마감했다. 회사는 6월 초 SEC에 기밀 방식으로 IPO 예비 서류를 제출했다.
이러한 맥락에서 소네트 5는 이중 목적을 수행한다. 개발자에게는 경쟁력 있는 가격으로 진정한 성능 향상을 제공한다. Anthropic의 IPO 스토리에는 회사가 광범위한 채택을 이끌어낼 수 있는 가격대에서 설득력 있는 제품을 제공할 수 있음을 입증한다. 이는 수천 개의 엔터프라이즈 고객으로부터의 대량 반복 API 수익을 의미한다. D.A. Davidson의 기술 연구 책임자 길 루리아는 CNBC에 Anthropic이 "프론티어 AI 모델에서 선두를 달리고 있는 것으로 보이지만", "현재 사용량의 상당 부분이 시험 및 실험 단계이며, 이것이 지속 가능하지 않을 수 있다"고 말했다.
소네트 5의 진정한 시험대는 실험적 사용을 프로덕션 등급의 수익으로 전환할 수 있는지 여부다. 비싼 오퍼스급 모델을 실험 중인 엔터프라이즈 고객은 소네트 5가 재무팀이 대규모로 승인할 수 있는 가격대로 프로덕션 워크로드에 충분한 품질을 제공한다는 것을 발견할 수 있다. 이것이 성공한다면, 모든 AI 기업이 자사의 밸류에이션을 정당화하기 위해 필요한 실험에서 배포로의 전환을 가속화할 수 있다.
본 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.