Une expérience du Wall Street Journal a révélé que les chatbots IA, y compris DeepSeek et ChatGPT, fournissent des réponses radicalement différentes sur la Chine selon la langue utilisée — et la force avec laquelle l'utilisateur insiste.
Lorsque Jeff He, un lecteur basé en Californie, a traduit une chronique du Wall Street Journal en chinois et l'a partagée avec des camarades de lycée en Chine, la réponse a été immédiate. Un ami a demandé à DeepSeek, le principal modèle d'IA chinois, d'écrire une réfutation. Le bot a produit un essai intitulé « L'avenir n'appartient pas à l'Amérique », affirmant que la Chine possède Huawei, Tencent, ByteDance et BYD tandis que l'Amérique n'a guère produit « qu'un moteur de recherche un peu plus bavard que les anciens ».
He a ensuite accédé à DeepSeek depuis son bureau en Californie — la même adresse web —, a collé la réfutation et a demandé au bot de vérifier chaque affirmation. La version internationale l'a démantelée, signalant une « utilisation sélective des données », de « fausses dichotomies » et de « multiples erreurs factuelles et raisonnements fallacieux » en huit points.
« La critique sans pitié de la version internationale de DeepSeek m'a vraiment surpris », a déclaré He au Journal.
Cette divergence reflète une caractéristique structurelle des grands modèles de langage que les chercheurs commencent seulement à quantifier. Une étude publiée dans Nature la semaine dernière par Molly Roberts, co-directrice du China Data Lab à l'Université de Californie à San Diego, et son équipe a révélé que les médias alignés sur l'État dans les pays autoritaires peuvent s'infiltrer dans les données d'entraînement et façonner les réponses des chatbots — même sans programmation délibérée.
Roberts a indiqué que l'écart entre la version chinoise et la version internationale observé par He provient probablement de différences dans l'alignement post-entraînement, l'étape où les modèles reçoivent des instructions sur ce qui est « sûr » de dire. « Le fait que les médias d'État se retrouvent dans les données d'entraînement affectera les LLM en général », a-t-elle déclaré. « Le post-entraînement devrait induire des refus ou des réponses biaisées dans les LLM influencés par les réglementations d'un État particulier. »
L'étude de Nature a testé Claude et ChatGPT avec des questions politiques identiques en anglais et en chinois. Dans 75 % des cas, les requêtes en chinois ont généré des réponses plus favorables au gouvernement chinois. Dans 37 pays autocratiques, dont le Vietnam, le Turkménistan et l'Ouzbékistan, les deux chatbots ont donné des réponses plus favorables au régime lorsqu'ils étaient interrogés dans la langue locale dominante. En revanche, dans les pays jouissant de la plus grande liberté de la presse, les LLM étaient souvent plus critiques envers le gouvernement lorsqu'ils étaient interrogés dans la langue locale.
Le mécanisme est simple : les médias alignés sur l'État produisent d'immenses quantités de textes derrière peu de pare-feu payants. Dans l'ensemble de données d'entraînement open-source CulturaX, les documents de propagande d'État chinois étaient 41 fois plus présents que les articles de Wikipédia en chinois — généralement une source d'entraînement centrale. Lorsque les chercheurs ont ajouté des médias d'État scriptés aux données d'entraînement d'un modèle de test, celui-ci est devenu mesurablement plus favorable au Parti communiste chinois.
L'insistance compte — mais tout le monde n'insiste pas
D'autres lecteurs du WSJ ont signalé des schémas similaires avec ChatGPT en anglais. Chas Gile, un investisseur en capital-investissement au Texas, a demandé à ChatGPT si la Chine était « à certains égards aussi démocratique que les pays occidentaux ». La première réponse a proposé une analyse comparative prudente, notant que Freedom House classe la Chine comme « non libre » mais que le régime offre une « responsabilité de performance » et une « satisfaction publique élevée rapportée ».
Lorsque Gile a insisté — disant au bot qu'il pensait qu'il avait été influencé par la propagande chinoise — ChatGPT s'est excusé en quelques secondes et a fourni une réponse plus tranchée. Invité à « rester véritablement objectif », il s'est encore durci : « La Chine offre peut-être un modèle alternatif puissant de capacité étatique, mais elle n'offre pas d'alternative démocratique. »
Cet épisode illustre comment un même chatbot peut évoluer de plusieurs crans à chaque échange en fonction de la persistance de l'utilisateur — une dynamique qui favorise les utilisateurs confiants et informés au détriment des utilisateurs occasionnels.
Ce que cela signifie pour l'industrie de l'IA
Ces résultats arrivent alors que les laboratoires d'IA de pointe se préparent à des introductions en bourse. Anthropic et OpenAI prévoient toutes deux des offres publiques initiales ; DeepSeek lève de nouveaux capitaux auprès d'investisseurs alignés sur la volonté de Pékin de parvenir à l'autosuffisance technologique. Les enjeux financiers amplifient le besoin de ce que Roberts appelle la « transparence des sources » — un étiquetage nutritionnel pour les données d'entraînement de l'IA.
« Les entreprises d'IA ont un rôle à jouer en étant aussi transparentes que possible », a déclaré Roberts. « Nous devons éduquer le public à penser de manière critique face aux productions de l'IA et à ne pas s'y fier aveuglément. »
Les implications politiques dépassent le cadre des chatbots grand public. Si les grands LLM sont influencés par la propagande autoritaire, ils pourraient servir d'apologistes particulièrement efficaces pour les régimes autocratiques — une machine capable de synthétiser toutes les connaissances enregistrées mais qui délivre des réponses façonnées par les médias d'État, sans que les utilisateurs n'en perçoivent le biais. Contrairement à un journal d'État, un chatbot peut engager un dialogue de plusieurs heures et fournir des réponses détaillées à des questions sceptiques, rendant son influence plus difficile à détecter.
Pékin semble considérer les chatbots américains comme une menace : ChatGPT est interdit en Chine. Pourtant, l'étude de Nature suggère que l'environnement informationnel pourrait encore s'améliorer par rapport aux alternatives nationales. Dans une expérience distincte, ChatGPT interrogé en chinois exprimait encore des opinions globalement anti-autoritaires et donnait des conseils sur la manière de manifester contre le gouvernement — ce qui suggère que les modèles de pointe pourraient rester moins biaisés que les médias contrôlés par l'État, même avec une contamination des données d'entraînement.
La question pour les régulateurs et les investisseurs est de savoir si la trajectoire actuelle — où la langue et la persistance de l'utilisateur déterminent la qualité des informations qu'il reçoit — est acceptable alors que l'IA devient l'interface d'information principale pour plus d'un milliard d'utilisateurs hebdomadaires.
Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.