ByteDance a brisé la barrière des 30 secondes dans la génération vidéo par IA et égalé Claude Opus 4.7 en codage à un cinquième du prix, dévoilant cinq nouveaux modèles lors de sa conférence annuelle FORCE le 23 juin.
« Seedance 2.5 est le premier modèle de génération vidéo à produire des clips natifs de 30 secondes à partir d'une seule invite, avec des changements de scène et des variations de rythme intégrés », a déclaré Tan Dai, président de Volcano Engine, la branche cloud de ByteDance, lors de la conférence à Pékin. « Il peut accepter simultanément jusqu'à 50 entrées de référence multimodales — images, audio, modèles 3D — et prend en charge l'édition localisée après génération sans dégrader la cohérence visuelle. »
Pièce maîtresse de cette annonce, Seedance 2.5 génère des clips vidéo uniques jusqu'à 30 secondes en résolution 4K native avec une profondeur de couleur de 10 bits, un bond considérable par rapport au plafond de 15 secondes qui a limité la plupart des outils vidéo IA. Le modèle introduit également la prévisualisation en modèle blanc 3D — une fonctionnalité inspirée par la demande d'un réalisateur lors d'une collaboration avec ByteDance, selon le PDG Liang Rubo. Les utilisateurs peuvent modifier des éléments individuels tels que les arrière-plans ou les produits après génération sans régénérer l'intégralité du clip, une capacité que ByteDance a démontrée en changeant les nuances de rouge à lèvres dans une publicité sans altérer la scène. Le modèle devrait être lancé début juillet.
Les enjeux concurrentiels s'étendent bien au-delà de la vidéo. Doubao 2.1 Pro, le modèle linguistique phare de ByteDance, a obtenu un score de 59,8 au benchmark scientifique SciCode, dépassant à la fois Claude Opus 4.7 et GPT-5.5, et a atteint un score de 47 en génération de code au niveau dépôt NL2Repo — devant GPT-5.5 et Gemini 3.1. Son prix de 6 yuans (0,83 $) par million de tokens d'entrée et de 30 yuans (4,14 $) par million de tokens de sortie représente une réduction de coût d'environ 80 % par rapport à la série Claude Opus d'Anthropic, selon Volcano Engine. Une variante turbo proposée à la moitié du tarif Pro cible les charges de travail d'entreprise à haute fréquence.
L'offensive IA full-stack
ByteDance ne s'est pas arrêtée au texte et à la vidéo. L'entreprise a également présenté Seedream 5.0 Pro pour la génération d'images, qui ajoute l'édition interactive — les utilisateurs peuvent dessiner des flèches ouencercler des régions pour modifier des éléments spécifiques — et la séparation multicouche qui divise récursivement les couches d'image tout en remplissant automatiquement les arrière-plans. Le modèle prend en charge les mises en page de texte haute densité dans plus de 10 langues, dont l'anglais, l'espagnol, l'arabe et le japonais, avec une typographie adaptée culturellement.
Côté audio, le modèle de génération audio Doubao 1.0 produit des bandes sonores cinématographiques complètes à partir du seul texte, en déduisant automatiquement les caractéristiques vocales des personnages, l'expression émotionnelle, les accents dialectaux, l'ambiance sonore et les effets sonores en une seule passe. Une démonstration a montré une séquence d'arts martiaux de près d'une minute avec des voix de personnages cohérentes, une ambiance de pluie et des sons de choc d'armes — le tout généré par le modèle sans superposition manuelle.
Seedance 2.0, le modèle précédent lancé en février, a reçu une mise à niveau vers la 4K native dans le cadre de cette annonce.
Adoption commerciale et déploiement en entreprise
L'activité cloud de Volcano Engine détient désormais 49,5 % du marché chinois du cloud public, a déclaré Tan. Les appels de tokens quotidiens sur l'ensemble de la famille de modèles Doubao de ByteDance ont atteint 180 000 milliards, soit une multiplication par 1 500 par rapport à il y a deux ans et une multiplication par dix au cours de la seule année écoulée. Le nombre de clients entreprises dépensant plus de 1 000 milliards de tokens par an a doublé pour atteindre 200 depuis décembre.
ByteDance a également lancé une plateforme de commercialisation des droits d'auteur IA, avec le réalisateur hongkongais Stephen Chou comme premier partenaire. Les utilisateurs peuvent remixer des extraits des classiques de Chou, dont « The God of Cookery » et « CJ7 », en utilisant des modèles officiels sur Douyin, Jimeng et Jianying — générant plus de 10 000 créations dès le premier jour, selon Tan.
L'adoption par les entreprises couvre de multiples secteurs. Tesla a intégré Doubao pour les commandes vocales de véhicules sur l'ensemble de sa gamme, en utilisant le modèle vocal en temps réel de ByteDance. La nouvelle berline électrique CLA de Mercedes-Benz intègre également Doubao pour l'interaction en langage naturel et la reconnaissance émotionnelle. Dans les services financiers, CICC a construit un agent conseiller en investissement numérique sur la plateforme HiAgent de ByteDance, distillant les recherches de plus de 300 analystes. China Mobile a lancé conjointement un service de modèles confidentiels pour les clients gouvernementaux et financiers utilisant une infrastructure de calcul domestique.
Ce que cela signifie pour les investisseurs
Le lancement IA full-stack de ByteDance — couvrant le texte, la vidéo, l'image et l'audio — signale une guerre des prix et des capacités qui met sous pression à la fois les leaders occidentaux de l'IA et les rivaux chinois. La parité de codage de Doubao 2.1 Pro avec Claude Opus 4.7 à 80 % de réduction des coûts comprime les marges des fournisseurs de modèles haut de gamme, tandis que la capacité de génération de 30 secondes de Seedance 2.5 dépasse Sora d'OpenAI et d'autres concurrents qui restent plafonnés à 15 à 20 secondes. La part de marché de 49,5 % dans le cloud public et les 180 000 milliards d'appels de tokens quotidiens suggèrent que l'adoption par les entreprises s'accélère plus rapidement que la plupart des analystes ne l'avaient prévu. Pour les investisseurs qui suivent le développement des infrastructures d'IA, la capacité de ByteDance à regrouper des modèles multimodaux à des prix agressifs — combinée à sa distribution via Douyin, Jimeng et Jianying — crée un concurrent verticalement intégré qui rivalise à l'échelle de n'importe quelle plateforme d'IA occidentale.
Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.