Pourquoi vos LLM produisent des contenus IA lisses ?

La thèse

Vous l’avez senti avant de pouvoir le formuler. Les contenus produits avec un LLM se ressemblent. Pas seulement les vôtres, ceux de vos concurrents aussi. Une syntaxe lissée, des transitions identiques, un goût générique qui transforme une tribune en post LinkedIn et un livre blanc en brochure. Vous avez essayé d’améliorer les prompts. Vous avez nourri le modèle de votre charte éditoriale. Vous avez même payé pour des outils de “voix de marque” qui promettaient l’unicité. Le résultat reste, à des degrés divers, le même : reconnaissable au premier regard comme produit par une machine.

La réponse circule, et elle est fausse. On entend que c’est un problème de prompt mal formulé. On entend qu’il faut “humaniser” la sortie, ajouter de la friction, casser le rythme, briefer plus précisément. Tout cela traite le symptôme. En ignorant la cause.

La cause est mathématique. Et tant qu’on ne la comprend pas, on continue à dépenser de l’énergie sur la mauvaise variable.

Voici la thèse de cet article : la fadeur des LLM n’est pas un bug à corriger en aval, c’est l’expression directe de leur fonction objectif. Un modèle de langage optimise statistiquement la probabilité du mot suivant. Cette optimisation est, par construction, une régression vers la moyenne. La singularité ne peut pas en émerger spontanément ; elle ne peut être obtenue qu’en contraignant le modèle depuis l’extérieur, par une infrastructure éditoriale définie en amont. Trois preuves vont étayer cela.

Preuve n°1 : ce qu’un LLM optimise réellement

Commençons par ce que personne ne dit assez clairement. Un grand modèle de langage n’est pas entraîné à “écrire bien”. Il n’est pas entraîné à “comprendre”. Il est entraîné à minimiser une fonction de perte appelée cross-entropy (entropie croisée) sur la prédiction du token suivant.

Concrètement, voici ce qui se passe pendant l’entraînement. Le modèle reçoit un début de phrase, par exemple “la souris a mangé le”. Il doit prédire le mot suivant. Il génère une distribution de probabilité sur l’ensemble de son vocabulaire ; disons 50 000 tokens possibles. Pour chacun, il assigne une probabilité d’occurrence. Le mot réel qui suit dans le corpus d’entraînement, “fromage”, reçoit une probabilité. La fonction de perte mesure la distance entre cette probabilité prédite et la vérité (probabilité de 1 sur “fromage”, 0 sur tout le reste). Le modèle ajuste alors ses paramètres pour augmenter la probabilité de “fromage” dans ce contexte. Il répète l’opération des milliards de fois, sur des trillions de tokens.

Yann Dubois, aujourd’hui chercheur chez OpenAI où il co-dirige l’équipe Post-training Frontiers et a contribué aux modèles o1, o3 et GPT-5 Thinking, l’a formulé sans ambiguïté en 2024, alors qu’il achevait son doctorat à Stanford sous la direction de Percy Liang et Tatsunori Hashimoto. Dans la conférence qu’il donne cette année-là sur la construction des grands modèles de langage, il pose une équivalence mathématique fondamentale : minimiser cette perte revient à maximiser la vraisemblance du texte. Autrement dit, le modèle est entraîné à produire ce qui est statistiquement le plus probable d’apparaître.

Réfléchissez une seconde à ce que cela implique.

“Statistiquement le plus probable”, c’est par définition ce qui ressemble le plus à la moyenne du corpus d’entraînement. Si le modèle a vu un milliard de paragraphes commençant par “Dans un monde en perpétuelle évolution”, il assigne une probabilité élevée à cette ouverture. Si la phrase “il est essentiel de noter” apparaît dans des centaines de millions de textes corporate, le modèle la reproduit. Non parce qu’elle est juste, ni belle, ni distinctive mais parce qu’elle est probable.

Cette mécanique a un nom : la régression vers la moyenne. C’est un phénomène statistique, pas un défaut de conception. Demander à un LLM brut de produire du contenu distinctif, c’est lui demander d’aller contre sa fonction objectif elle-même. C’est aussi absurde que de demander à un thermomètre de chauffer la pièce.

Notez au passage un point contre-intuitif que Dubois souligne devant ses étudiants : ce qu’on enseigne en cours de machine learning sur le surapprentissage (l’idée qu’un modèle trop entraîné finit par mémoriser au lieu de généraliser) ne s’applique pas aux LLM. Plus on les entraîne, plus on les agrandit, plus on leur donne de données, meilleurs ils deviennent. Il n’y a pas de plateau observé empiriquement à l’échelle actuelle. Conséquence : la régression vers la moyenne n’est pas un effet de bord qu’on pourrait éliminer en ajustant l’entraînement. Elle est constitutive du modèle, et elle se renforce avec sa taille.

La singularité, par définition, est une déviation par rapport à la moyenne. Elle est le contraire mathématique de ce que le modèle optimise.

Preuve n°2 : pourquoi le RLHF amplifie le lissage au lieu de le corriger

Vous pourriez objecter : “Mais ChatGPT, Claude, Gemini ne sont pas des modèles bruts. Ils ont été alignés. Ils sont passés par du RLHF, l’apprentissage par renforcement à partir de retours humains. Cette étape devrait corriger la fadeur.”

Elle l’aggrave. Voici pourquoi.

Le RLHF (Reinforcement Learning from Human Feedback) fonctionne ainsi. Le modèle, après pré-entraînement, génère deux réponses à une même question. Des annotateurs humains choisissent celle qu’ils préfèrent. Un modèle de récompense apprend à imiter ces préférences. Puis le modèle de langage est ajusté pour maximiser ce score de préférence. C’est ce qui transforme un modèle qui complète du texte en assistant qui répond à des questions. C’est l’étape qui a fait passer GPT-3 (connu des chercheurs) à ChatGPT (connu de tous).

Le problème, documenté par les chercheurs eux-mêmes, c’est que les annotateurs humains ont des biais. Et l’un des plus puissants est un biais de longueur : ils préfèrent les réponses longues, structurées, qui paraissent élaborées. Le modèle apprend donc à produire long. Dubois le pointe explicitement : si vous trouvez que ChatGPT répond systématiquement avec trop de mots, des listes à puces, des disclaimers, des “il est important de noter que”, c’est la conséquence directe du RLHF, pas un bug.

Pire encore : le bruit d’annotation est massif. Dans les expériences menées dans son propre laboratoire, Dubois rapporte que des annotateurs humains formés ne sont d’accord entre eux que dans environ deux tiers des cas sur ce qu’est la “meilleure” des deux réponses. Autrement dit, un tiers des signaux d’entraînement du RLHF est du désaccord humain. Pour stabiliser l’apprentissage malgré ce bruit, le modèle converge mécaniquement vers ce qui fait consensus, c’est-à-dire vers les caractéristiques de surface sur lesquelles les annotateurs s’accordent : longueur, présence de structure visible, ton mesuré, absence d’aspérités. Pas vers la qualité de fond, qui se mesure mal et fait dissensus.

Mais il y a pire. Une fois le biais détecté chez les humains, on l’a transféré aux LLM eux-mêmes parce que payer des humains pour annoter coûte cher, donc on remplace l’annotateur humain par un autre LLM. C’est ce qu’on appelle la distillation de préférences. Et là où l’humain corrige éventuellement son biais s’il est confronté à un excès évident, le modèle, lui, ne corrige rien. Il optimise. Mécaniquement. Sans fin.

Conséquence : à chaque génération de modèle, les biais d’annotation se renforcent. Le lissage stylistique s’amplifie. Les réponses deviennent plus longues, plus structurées de la même façon, plus prévisibles. La singularité s’érode à chaque cycle d’entraînement. Ce n’est pas une opinion — c’est une dynamique observée et publiée.

Le RLHF ne résout pas le problème de fadeur posé par la fonction objectif initiale. Il en hérite, et il le compose.

Une objection plus actuelle mérite d’être traitée. Depuis la conférence de Dubois en 2024, le paysage méthodologique a évolué : le RLHF n’est plus la méthode dominante d’alignement. Des approches plus efficaces ont pris le relais — DPO (Direct Preference Optimization), qui élimine le modèle de récompense intermédiaire, GRPO et DAPO pour l’optimisation à grande échelle, RLVR (Reinforcement Learning from Verifiable Rewards) pour les tâches où la vérité est mesurable, ou encore le reasoning RL qui entraîne les modèles à raisonner étape par étape sur des problèmes vérifiables. Les modèles de pointe en 2026 (o3, GPT-5 Thinking, DeepSeek-R1, Claude 4) utilisent des combinaisons de ces méthodes plutôt que le RLHF classique.

Le détail technique compte moins que la conclusion : la régression vers la moyenne persiste à travers ces évolutions. DPO élimine certains coûts du RLHF, mais reste fondé sur les préférences d’annotateurs — donc hérite de leurs biais de surface. RLVR fonctionne bien sur les tâches vérifiables (mathématiques, code) mais ne s’applique pas à la production éditoriale, où il n’existe pas de vérité unique mesurable. Le reasoning RL améliore la profondeur de raisonnement, pas la singularité stylistique. Aucune de ces méthodes ne s’attaque à la fonction objectif initiale du pré-entraînement, qui reste l’optimisation de la vraisemblance statistique.

Autrement dit : le problème de singularité n’est pas un problème d’alignement. C’est un problème antérieur à l’alignement. Aucune amélioration du post-entraînement ne peut, à elle seule, le résoudre. La thèse posée par Dubois en 2024 sur le rôle structurant de la fonction objectif sort renforcée, pas affaiblie, par deux ans de progrès méthodologiques.

Preuve n°3 : ce que disent vraiment les ingénieurs qui construisent ces modèles

Il existe un décalage frappant entre le discours public sur l’IA générative et ce que disent ses concepteurs en interne. Le discours public porte sur les modèles : leur taille, leur architecture, leurs benchmarks. Le discours interne porte sur la donnée.

Toujours dans la même conférence de Stanford, Dubois donne un chiffre qui devrait suffire à recadrer la conversation. Sur l’équipe Llama de Meta, environ 70 personnes travaillent sur la construction du modèle. Sur ces 70, environ 15 — soit plus d’un cinquième — travaillent exclusivement sur la donnée d’entraînement : la collecte, le nettoyage, le filtrage, la déduplication, la pondération des domaines, la qualification des sources.

Pourquoi ce ratio ? Parce que les ingénieurs qui construisent ces modèles savent ce que l’industrie marketing met du temps à intégrer : la performance d’un LLM ne vient pas de son architecture, elle vient de la qualité de ce qu’on lui donne à apprendre. Dubois le formule sans détour :

“What matters in practice is mostly data, evaluation and systems.”

— Yann Dubois, Stanford CS229, 2024

Ce qui compte en pratique, c’est principalement la donnée, l’évaluation et les systèmes. L’académie sur-investit l’architecture et les algorithmes parce que c’est ce qu’on enseigne et ce qu’on publie. L’industrie, elle, sait où se joue la performance réelle.

Cette leçon est transposable mot pour mot à votre situation. Vous n’allez pas, en tant qu’organisation, modifier l’architecture de GPT-5 ou de Claude. Vous n’allez pas changer leur fonction objectif. Vous n’allez pas réécrire leur RLHF. Mais vous pouvez agir sur la seule variable qui décide de la qualité éditoriale réelle de vos sorties : ce que vous donnez au modèle à manipuler. Et plus encore : le cadre dans lequel vous le faites travailler.

C’est exactement le déplacement que les meilleurs laboratoires de recherche ont opéré il y a cinq ans, et que la plupart des directions marketing n’ont pas encore opéré. Ils ont arrêté de chercher la performance dans le modèle. Ils l’ont cherchée — et trouvée — dans l’infrastructure qui alimente le modèle.

Vous devez faire le même déplacement.

Implication : la singularité ne se prompte pas, elle s’architecture

Si la fonction objectif d’un LLM est la régression vers la moyenne, et si cette régression est amplifiée à chaque cycle d’alignement, alors la singularité éditoriale ne peut pas être obtenue par des moyens internes au modèle. Elle ne peut être obtenue que par des moyens externes : des contraintes posées en amont qui forcent le modèle à dévier de son comportement par défaut.

C’est ce que nous appelons, chez WeAreTheWords, l’ingénierie éditoriale. Le terme n’est pas cosmétique. Il désigne précisément ce dont nous parlons : l’ensemble des couches d’infrastructure qui transforment un modèle de langage générique en producteur de contenu aligné avec une marque, une voix, une thèse, un patrimoine.

Cette infrastructure repose sur quatre piliers concrets.

Une voix de marque codifiée plutôt que décrite

La différence est essentielle. Une voix décrite (“nous sommes chaleureux et professionnels”) est inutile pour un modèle. Une voix codifiée — énoncé de marque, valeurs, archétypes, registres langagiers, traits acceptés et rejetés, émotions cibles — est une grille de contraintes que le modèle peut interpréter. Le BrandVoice Framework™ que nous utilisons repose sur neuf piliers précisément parce que neuf est le nombre minimal de dimensions qui permet à une voix d’être reproductible sans être réductrice.

Un système éditorial, et non pas seulement un calendrier

Un calendrier liste des publications. Un système éditorial définit les règles de production : ce qu’on publie, ce qu’on refuse, ce qu’on archive, comment les contenus se relient entre eux, comment ils se mesurent. C’est ce que nous appelons le Content Operating System™. Sans système, chaque pièce de contenu produite avec un LLM est une dérive isolée. Avec système, chaque pièce s’inscrit dans un patrimoine cohérent.

Une gouvernance des sources avant la vérification a posteriori

Les LLM hallucinent. Ce n’est pas un défaut occasionnel, c’est une conséquence prévisible du SFT (supervised fine-tuning) : on entraîne le modèle à imiter des réponses plausibles, sans qu’il sache si l’information sous-jacente est vraie. La seule parade industrielle, c’est la gouvernance amont des sources : règle de validation systématique des chiffres, marquage explicite des données non vérifiées, refus catégorique de publier sans traçabilité, prise en compte des signaux EEAT d’expérience et d’expertise. C’est lent, c’est coûteux, c’est non négociable.

Une mesure de la singularité et pas seulement de la performance

Les KPI classiques (impressions, clics, leads) mesurent la diffusion, pas la singularité. Or si vos contenus ressemblent à ceux de vos concurrents, ils peuvent performer en visibilité tout en érodant votre différenciation de marque. Il faut donc mesurer explicitement la diversité de raisonnement, la variabilité rythmique, la dispersion lexicale, l’ancrage contextuel, l’originalité de l’arc narratif. Sans cette mesure intégrée à la chaîne de valeur éditoriale, vous pilotez à l’aveugle.

Ces quatre piliers ne sont pas un luxe d’agence. Ce sont les conditions matérielles qui rendent un LLM utilisable au service d’une marque. Sans eux, vous n’utilisez pas l’IA — vous vous diluez dedans.

Ce que cela change pour vous, concrètement

Si la thèse de cet article est juste, alors trois conséquences opérationnelles s’imposent.

D’abord, arrêtez d’optimiser le mauvais maillon. Si vous investissez dans des outils de prompt engineering pour corriger un problème qui se joue en amont du prompt, vous dépensez de l’énergie sur la mauvaise variable. Le retour sur cet investissement sera, par construction, faible.

Ensuite, acceptez que le levier soit éditorial, pas technologique. La performance de vos contenus produits avec un LLM dépend de la qualité de l’infrastructure éditoriale qui encadre cette production. Cette infrastructure ne se code pas — elle s’écrit, elle se gouverne, elle se maintient. Elle relève de l’ingénierie éditoriale, pas de l’ingénierie logicielle.

Enfin, mesurez ce qui compte vraiment. La diffusion est facile à mesurer. La singularité l’est moins, mais c’est elle qui décide de votre buyabilité dans des cycles de vente B2B longs. Une marque que les LLM ne peuvent pas répliquer est une marque qui survit à la commoditisation des contenus génériques.

La question n’est plus “comment mieux utiliser l’IA”. Elle est devenue : dans quelle mesure votre infrastructure éditoriale est-elle capable d’imposer votre singularité à un système qui régresse, par construction, vers la moyenne ?

Si vous ne pouvez pas y répondre précisément, vous êtes en train de perdre votre souveraineté éditoriale — c’est-à-dire votre capacité à décider de ce que votre marque dit, comment elle le dit, et pourquoi cela mérite d’être lu.

Source principale : Yann Dubois, Stanford CS229 ; Lecture 12: Building Large Language Models, Stanford University, été 2024. Conférence disponible sur YouTube. Yann Dubois est aujourd’hui chercheur chez OpenAI, où il co-dirige l’équipe Post-training Frontiers et a contribué aux modèles o1, o3 et GPT-5 Thinking. Il a obtenu son doctorat en informatique à Stanford en 2025, sous la direction de Percy Liang et Tatsunori Hashimoto, et est co-auteur du projet Alpaca.

Le Stack

Pourquoi vos LLM produisent des contenus IA lisses ?

La thèse

Preuve n°1 : ce qu’un LLM optimise réellement

Preuve n°2 : pourquoi le RLHF amplifie le lissage au lieu de le corriger

Preuve n°3 : ce que disent vraiment les ingénieurs qui construisent ces modèles

Implication : la singularité ne se prompte pas, elle s’architecture

Une voix de marque codifiée plutôt que décrite

Un système éditorial, et non pas seulement un calendrier

Une gouvernance des sources avant la vérification a posteriori

Une mesure de la singularité et pas seulement de la performance

Ce que cela change pour vous, concrètement

Atomes crochus

Du grain à moudre

Brand Voice Framework™

Brand Voice Framework™

Brand Voice Framework™

Brand Voice Framework™

Brand Voice Framework™

Langage de marque

Langage de marque

Langage de marque

Langage de marque

Langage de marque

BRAND VOICE WORKBOOK™

BRAND VOICE WORKBOOK™

BRAND VOICE WORKBOOK™

BRAND VOICE WORKBOOK™

BRAND VOICE WORKBOOK™

Matières à réflexion

Content factory : un gabarit encode un regard

Référencement IA : pourquoi votre marque n’est pas citée, et comment l’auditer

Sous les masques des marques, les archétypes

La Factory

Le Hub

Le Journal

L'éditorial fullstack