Comment les LLMs choisissent leurs sources
Pourquoi un LLM cite-t-il certaines pages et pas d'autres ? Tokenisation, poids d'attention, fréquence d'apparition dans les données d'entraînement — on décortique la mécanique pour que vous puissiez l'utiliser.
Vous venez de publier un article de fond. Vos sources sont irréprochables, votre contenu est utile, votre structure est claire. Pourtant, quand quelqu’un pose la question à ChatGPT ou à Perplexity, c’est votre concurrent qui est cité — alors que vous avez publié la même information six mois avant lui.
Frustrant. Mais pas aléatoire.
Il y a une mécanique derrière ce choix. Et contrairement à ce qu’on pourrait penser, ce n’est pas un mystère impénétrable. Les grands modèles de langage fonctionnent selon des principes que la recherche académique documente de mieux en mieux depuis 2022. Comprendre ces principes, c’est comprendre comment jouer le jeu.
Deux cerveaux, deux logiques : mémoire vs RAG
Avant d’aller plus loin, il faut distinguer deux mécanismes radicalement différents. Les confondre, c’est garantir de gaspiller ses efforts.
Premier mécanisme : la mémoire d’entraînement. Un LLM comme GPT-4o, Claude ou Gemini n’est pas connecté à internet par défaut. Quand vous lui posez une question, il répond depuis ce qu’il a “appris” pendant son entraînement — des centaines de milliards de textes digérés et compressés dans ses paramètres. Aucun accès au web en temps réel. Votre article publié hier ? Il ne le connaît pas.
Deuxième mécanisme : le RAG. Pour Perplexity, pour ChatGPT Search, pour Google AI Overviews — c’est différent. RAG signifie Retrieval-Augmented Generation : à chaque requête, le système fait une vraie recherche web, récupère des extraits de pages pertinentes, et les injecte dans le contexte du modèle pour construire sa réponse. Ici, votre article peut être cité le lendemain de sa publication — à condition d’être indexé.
Ces deux mécanismes ne répondent pas aux mêmes signaux. Pour la mémoire d’entraînement, vous travaillez sur le long terme, avant la date de coupure du modèle. Pour le RAG, vous travaillez sur la structure et la fraîcheur de votre contenu, avec des effets visibles en quelques semaines.
La plupart des stratégies GEO efficaces jouent sur les deux tableaux en parallèle. Mais comprendre pourquoi chacun fonctionne différemment, c’est là que ça devient intéressant.
Ce qui se passe réellement pendant l’entraînement
Imaginez que vous deviez mémoriser une encyclopédie entière. Mais pas en la lisant une fois — en la lisant des milliers de fois, en désordre, avec des millions d’autres livres mélangés. Et sans pouvoir prendre de notes : vous devez tout comprimer dans votre cerveau comme des connexions neuronales.
C’est grossièrement ce que fait un LLM pendant son entraînement.
Techniquement, un modèle comme GPT-4o est un réseau de neurones avec des centaines de milliards de paramètres — des poids numériques qui encodent, de façon distribuée, les patterns statistiques de tout ce qu’il a lu. Aucune information n’est stockée mot pour mot dans une base de données. Tout est disséminé, réparti, compressé dans ces connexions.
L’entraînement fonctionne par une mécanique simple mais puissante : le modèle lit un texte, essaie de prédire le prochain token (l’unité de base du texte, environ ¾ d’un mot en moyenne), compare sa prédiction à la réalité, et ajuste ses poids en conséquence. Des milliards de fois. Jour et nuit, pendant des semaines.
Ce qui ressort de ce processus, c’est que tout n’est pas traité avec la même intensité. Une information qui apparaît une seule fois dans un corpus de plusieurs téraoctets laissera une trace infime. La même information répétée dans 500 contextes différents — un article Wikipedia, une discussion Reddit, une étude académique, un thread Twitter, un tutoriel Medium — sera profondément intégrée.
La recherche de Carlini et al. (2022, publiée dans une version finale en 2023) a formalisé ce principe : la mémorisation augmente de façon log-linéaire avec la fréquence d’apparition dans les données d’entraînement. Plus un texte est dupliqué ou référencé dans le corpus, plus il est mémorisé. C’est aussi simple — et aussi important — que ça.
Le mécanisme d’attention : pourquoi certains tokens comptent plus
Pour comprendre comment un LLM “choisit” quoi retenir quand il génère une réponse, il faut faire un détour par le mécanisme qui a révolutionné le domaine : l’attention.
Dans l’architecture Transformer (celle qui sous-tend tous les grands modèles actuels, depuis la publication fondatrice “Attention Is All You Need” en 2017), chaque token du texte peut “regarder” tous les autres tokens et décider lesquels sont pertinents pour lui. C’est le mécanisme d’attention multi-têtes.
Concrètement : quand le modèle génère une réponse à votre question, chaque partie de la réponse est influencée par les tokens du contexte auxquels il “fait attention”. Si votre question mentionne “réchauffement climatique” et “2023”, le modèle va affecter plus de poids aux parties de sa mémoire associées à ces concepts précis dans ce contexte temporel précis.
Ce qui a des conséquences directes pour les créateurs de contenu : les textes qui utilisent des structures sémantiques claires et cohérentes bénéficient naturellement de ce mécanisme. Un article qui introduit un concept, le définit, l’illustre, puis répond à des questions connexes — tout ça dans un vocabulaire cohérent — crée des connexions sémantiques que le mécanisme d’attention peut exploiter plus efficacement qu’un texte décousu.
C’est l’une des raisons pour lesquelles les articles bien structurés, avec des titres informatifs et des définitions explicites, sont naturellement mieux représentés dans les sorties des LLMs.
Les signaux qui font qu’un contenu est mémorisé (ou ignoré)
Voilà le coeur du sujet. Qu’est-ce qui fait, concrètement, qu’un contenu laisse une empreinte dans un modèle plutôt que de passer inaperçu ?
La fréquence et la diversité des contextes
C’est le signal le plus puissant, et le moins intuitif. Ce n’est pas l’excellence d’un seul article qui compte — c’est la répétition de l’information dans des contextes variés.
Une étude publiée sur arXiv en 2025 (arXiv:2510.25378) a mesuré la corrélation entre le nombre de citations d’une publication académique et la fidélité avec laquelle GPT-4.1 reproduit ses informations bibliographiques. La conclusion est frappante : au-delà d’environ 1 000 citations dans les données d’entraînement, les informations sont reproduites quasi verbatim. En dessous de ce seuil, le modèle improvise, hallucine, mélange.
Ce n’est pas un phénomène propre aux publications académiques. C’est le même principe pour n’importe quelle information : plus elle apparaît souvent, dans des contextes différents, plus le modèle l’intègre avec précision.
Pour un créateur de contenu, ça se traduit par une règle contre-intuitive : un article très partagé et commenté sur d’autres plateformes vaut mieux, pour la mémoire des LLMs, qu’un article parfait resté dans l’ombre. La multiplication des points de contact prime sur la qualité isolée d’un seul document.
Le type d’information : factuel vs raisonné
Tous les types de contenu ne se mémorisent pas avec la même intensité. Une recherche publiée et présentée à l’ICLR 2025 (arXiv:2407.14985) l’a montré clairement : les tâches factuelles montrent la mémorisation la plus forte, tandis que les tâches de raisonnement s’appuient davantage sur la généralisation.
Ce que ça signifie en pratique : les LLMs retiennent particulièrement bien les faits précis, les chiffres, les définitions, les noms propres, les associations directes entre un concept et sa définition. Un paragraphe du type “Selon X (mois année), le chiffre Y représente Z dans ce contexte précis” a beaucoup plus de chances d’être mémorisé fidèlement qu’un développement analytique de plusieurs paragraphes.
Paradoxalement, c’est votre contenu le plus “factuel” — vos données originales, vos définitions précises, vos statistiques sourcées — qui a la meilleure chance de s’imprimer dans la mémoire d’un modèle.
L’autorité de la source dans les données d’entraînement
Certaines plateformes sont massivement sur-représentées dans les corpus d’entraînement de tous les grands modèles. Wikipedia est l’exemple le plus évident : la quasi-totalité des pages Wikipedia en toutes langues figure dans les données de pré-entraînement de GPT, Claude, Gemini et leurs concurrents. Reddit, Hacker News, les publications académiques accessibles (arXiv, PubMed), GitHub — ces sources bénéficient d’une représentation disproportionnée.
Conséquence directe : être mentionné ou lié depuis ces plateformes amplifie votre “empreinte mémorielle” de façon significative. Ce n’est pas du tout la même chose que d’être mentionné sur un blog sans trafic, même si ce blog est techniquement “de qualité”.
La clarté structurelle pour le RAG
Pour les systèmes RAG, la logique est différente. Ici, le modèle ne pioche pas dans une mémoire diffuse — il lit, en temps réel, des extraits de vos pages web. Ce qu’il cherche, c’est de l’information extractible rapidement et sans ambiguïté.
Le benchmark CRAG (publié en 2024, arXiv:2406.04744) a mesuré les performances des systèmes RAG sur plus de 4 400 paires question-réponse. Résultat : même les meilleurs systèmes RAG industriels répondent sans hallucination dans seulement 63 % des cas. La principale cause d’échec ? Des sources qui ne contiennent pas la réponse de façon directement extractible.
Ce que ça veut dire pour votre contenu : si la réponse à une question est noyée dans trois paragraphes d’introduction, un système RAG va souvent passer à côté. Si elle est dans la première phrase de la section, avec des termes qui correspondent exactement à la question posée, la probabilité de citation monte drastiquement.
Ce que ça change concrètement pour votre stratégie de contenu
La mécanique des LLMs suggère des priorités précises — pas des “conseils SEO” génériques, mais des décisions qui découlent directement de la façon dont ces systèmes fonctionnent.
Produire des données originales et les disséminer. Si vous menez une étude, une enquête, ou si vous avez accès à des données que personne d’autre ne publie — c’est de l’or pour la mémoire des modèles. Une statistique originale, citée et reprise sur 50 sites différents, sera profondément intégrée dans les prochaines générations de modèles. C’est un investissement à horizon 12-24 mois, mais ses effets sont durables.
Structurer comme si vous parliez à un extracteur, pas à un lecteur humain. Chaque section de votre article devrait pouvoir fonctionner de façon autonome : titre informatif, réponse directe dans la première phrase, développement ensuite. Un lecteur humain peut tolérer une intro de trois paragraphes avant d’arriver à l’essentiel. Un système RAG, non.
Soigner les formulations factuelles. Les associations du type “[concept] est/désigne/représente [définition précise]” sont exactement ce que les LLMs mémorisent le mieux. Définir vos termes, donner des chiffres avec leur source et leur date, nommer les acteurs précisément — ce n’est pas du remplissage académique, c’est ce qui maximise la probabilité que votre information soit restituée fidèlement.
Multiplier les points de contact légitimes. Une note sur LinkedIn qui résume votre article. Une réponse sur un forum spécialisé qui cite votre étude. Une contribution Wikipedia si vous êtes expert sur le sujet. Un thread structuré sur un réseau professionnel. Pas pour le SEO au sens traditionnel — mais pour multiplier les contextes dans lesquels votre information apparaît dans les corpus qui nourriront les prochains modèles.
Penser à la date de coupure des modèles. Les prochaines générations de GPT, Claude et Gemini seront entraînées sur des données allant probablement jusqu’à fin 2025 ou début 2026. Ce que vous publiez et disséminez maintenant a de bonnes chances d’alimenter ces modèles. L’horizon d’action est court.
Récapitulatif : mémorisation vs RAG, les signaux qui comptent
| Signal | Impact mémoire d’entraînement | Impact RAG (Perplexity, ChatGPT Search) |
|---|---|---|
| Fréquence dans le corpus (mentions, reprises) | Très élevé | Faible |
| Diversité des plateformes (Wikipedia, Reddit, forums) | Très élevé | Faible |
| Données originales et chiffres sourcés | Élevé | Élevé |
| Structure extractible (réponse en tête de section) | Modéré | Très élevé |
| Fraîcheur du contenu | Nul (date de coupure fixe) | Très élevé |
| Spécialisation thématique | Élevé | Élevé |
| Indexation et accessibilité technique | Nul | Élevé |
| Formulations factuelles précises | Très élevé | Élevé |
La bonne nouvelle dans tout ça : les signaux qui fonctionnent pour la mémoire des modèles et ceux qui fonctionnent pour le RAG se chevauchent largement. Données précises, spécialisation thématique, autorité de contenu — ces éléments jouent dans les deux cas. Ce ne sont pas deux stratégies incompatibles, c’est la même exigence de qualité factuelle vue sous deux angles différents.
L’erreur à éviter serait de se focaliser uniquement sur la technique (indexation, vitesse de chargement) en oubliant que la vraie compétition se joue sur un terrain sémantique : est-ce que votre contenu contient une réponse que les modèles peuvent utiliser, dans une forme qu’ils peuvent traiter ? Si oui, vous avez déjà une longueur d’avance sur la majorité des sites.
Sources : Carlini et al., “Quantifying Memorization Across Neural Language Models”, arXiv:2202.07646, version finale mars 2023 ; Vaswani et al., “Attention Is All You Need”, NeurIPS 2017 ; Aggarwal et al., “GEO: Generative Engine Optimization”, KDD 2024 (arXiv:2311.09735) ; “Memorization or Generalization? Dissecting LLM Capabilities”, arXiv:2407.14985, ICLR 2025 ; “Citation Count Correlates with LLM Memorization Accuracy”, arXiv:2510.25378, octobre 2025 ; Yang et al., “CRAG — Comprehensive RAG Benchmark”, arXiv:2406.04744, 2024 ; Min et al., “FActScore: Fine-grained Atomic Evaluation of Factual Precision”, arXiv:2305.14251, 2023.