핵심 요약:
- 바이트댄스의 Seedance 2.5는 단일 프롬프트로 30초 분량의 AI 영상 클립을 자체 생성하며 업계 15초 한계를 돌파
- Doubao 2.1 Pro는 코딩 벤치마크에서 Claude Opus 4.7과 동등한 성능을 약 80% 낮은 비용으로 달성
- 회사는 텍스트, 비디오, 이미지, 오디오 등 5개의 AI 모델을 출시했으며, 일일 180조 토큰 호출과 49.5%의 퍼블릭 클라우드 시장 점유율 기록
핵심 요약:

바이트댄스가 6월 23일 연례 FORCE 컨퍼런스에서 AI 영상 생성의 30초 벽을 깨고, 클로드 오푸스(Claude Opus) 4.7과 코딩 성능이 동등하면서도 가격은 5분의 1 수준인 신규 모델 5종을 공개했다.
"Seedance 2.5는 단일 프롬프트만으로 30초 분량의 네이티브 클립을 생성하는 최초의 비디오 생성 모델로, 씬 전환과 템포 변화가 내장되어 있습니다"라고 바이트댄스의 클라우드 사업부인 볼케이노 엔진(Volcano Engine)의 탄 다이 사장이 베이징 컨퍼런스에서 밝혔다. "최대 50개의 멀티모달 참조 입력(이미지, 오디오, 3D 모델)을 동시에 받아들일 수 있으며, 생성 후에도 시각적 일관성을 유지하면서 부분 편집을 지원합니다."
이번 발표의 핵심인 Seedance 2.5는 대부분의 AI 비디오 도구를 제약해온 15초 한계를 뛰어넘어, 네이티브 4K 해상도와 10비트 컬러 심도로 최대 30초 길이의 단일 비디오 클립을 생성한다. 이 모델은 또한 바이트댄스의 CEO 량 루보에 따르면 영화 감독과의 협업 중 요청에서 영감을 받은 3D 화이트모델 사전 시각화 기능을 도입했다. 사용자는 전체 클립을 다시 생성하지 않고도 배경이나 제품 등 개별 요소를 편집할 수 있으며, 바이트댄스는 상업 광고에서 장면을 변경하지 않고 립스틱 색상만 교체하는 시연을 선보였다. 이 모델은 7월 초 출시될 예정이다.
경쟁의 범위는 비디오를 훨씬 넘어선다. 바이트댄스의 플래그십 언어 모델인 Doubao 2.1 Pro는 과학 추론 벤치마크 SciCode에서 59.8점을 기록, Claude Opus 4.7 및 GPT-5.5를 모두 능가했으며, 저장소 수준 코드 생성 벤치마크 NL2Repo에서는 47점을 기록해 GPT-5.5 및 Gemini 3.1을 앞질렀다. 볼케이노 엔진에 따르면 입력 토큰 100만 개당 6위안(0.83달러), 출력 토큰 100만 개당 30위안(4.14달러)의 가격은 Anthropic의 Claude Opus 시리즈 대비 약 80%의 비용 절감을 의미한다. Pro 등급의 절반 가격인 터보 변종은 고주파수 엔터프라이즈 워크로드를 대상으로 한다.
풀스택 AI 공세
바이트댄스는 텍스트와 비디오에 멈추지 않았다. 이미지 생성을 위한 Seedream 5.0 Pro도 공개했는데, 사용자가 화살표를 그리거나 영역을 원형으로 표시해 특정 요소를 수정할 수 있는 인터랙티브 편집 기능과 이미지 레이어를 반복적으로 분할하면서 배경을 자동으로 채우는 다중 레이어 분리 기술을 추가했다. 이 모델은 영어, 스페인어, 아랍어, 일본어 등 10개 이상의 언어에서 고밀도 텍스트 레이아웃을 지원하며, 문화에 맞춰 조정된 타이포그래피를 제공한다.
오디오 부문에서는 Doubao 오디오 생성 모델 1.0이 텍스트만으로 완전한 시네마틱 사운드트랙을 생성하며, 캐릭터 음성 특성, 감정 전달, 방언 악센트, 배경 분위기 및 음향 효과를 단일 과정에서 자동으로 추론한다. 데모에서는 거의 1분에 가까운 무술 시퀀스에서 일관된 캐릭터 목소리, 빗소리 분위기, 무기 충돌음을 모두 모델이 생성했으며 수동 레이어링은 필요하지 않았다.
2월에 출시된 전작 Seedance 2.0은 이번 발표의 일환으로 네이티브 4K 업그레이드를 받았다.
상업적 성과와 기업 도입
탄 사장에 따르면 볼케이노 엔진의 클라우드 사업은 현재 중국 퍼블릭 클라우드 시장의 49.5%를 점유하고 있다. 바이트댄스의 Doubao 모델 패밀리 전체의 일일 토큰 호출량은 180조에 달하며, 이는 2년 전보다 1,500배, 지난 1년 동안만 10배 증가한 수치다. 연간 1조 토큰 이상을 사용하는 엔터프라이즈 고객 수는 12월 이후 200개로 두 배 증가했다.
바이트댄스는 또한 AI 저작권 상용화 플랫폼을 출시했으며, 홍콩 영화감독 스티븐 초우(주성치)가 첫 번째 파트너로 참여했다. 탄 사장에 따르면 사용자는 더우인, 지멍(Jimeng), 지앤잉(Jianying)에서 스티븐 초우의 '식신', 'CJ7' 등 명작 클립을 공식 템플릿을 사용해 리믹스할 수 있으며, 첫날에만 1만 개 이상의 창작물이 생성됐다.
엔터프라이즈 도입은 여러 산업에 걸쳐 이루어지고 있다. 테슬라는 바이트댄스의 실시간 음성 모델을 사용해 전 라인업에 걸쳐 Doubao 기반 음성 차량 제어 기능을 통합했다. 메르세데스-벤츠의 새로운 전기차 CLA도 자연어 상호작용 및 감정 인식을 위해 Doubao를 탑재했다. 금융 서비스 분야에서는 CICC(중국국제금융공사)가 바이트댄스의 HiAgent 플랫폼을 기반으로 300명 이상의 애널리스트 리서치를 종합한 디지털 투자 자문 에이전트를 구축했다. 차이나모바일은 국내 컴퓨팅 인프라를 사용해 정부 및 금융 고객을 위한 기밀 모델 서비스를 공동 출시했다.
투자자에게 시사하는 바
텍스트, 비디오, 이미지, 오디오에 걸친 바이트댄스의 풀스택 AI 출시는 서방 AI 리더와 중국 경쟁사 모두에 압력을 가하는 가격 및 성능 전쟁을 예고한다. Doubao 2.1 Pro가 Claude Opus 4.7과 동등한 코딩 성능을 80% 낮은 비용으로 제공한다는 점은 프리미엄 티어 모델 제공업체의 마진을 압박하는 반면, Seedance 2.5의 30초 생성 능력은 15~20초에 머물러 있는 OpenAI의 Sora 및 기타 경쟁사들을 크게 앞지른다. 49.5%의 퍼블릭 클라우드 시장 점유율과 180조 일일 토큰 호출량은 기업 도입이 대부분의 애널리스트 전망보다 빠르게 가속화되고 있음을 시사한다. AI 인프라 구축을 추적하는 투자자에게 바이트댄스가 공격적인 가격대로 모델을 모달리티 전반에 걸쳐 번들링하고, 더우인, 지멍, 지앤잉을 통한 유통 채널을 결합한 능력은 서방 AI 플랫폼과 견줄 수 있는 수직 통합형 경쟁자를 만들어내고 있다.
본 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.