Le RAG : comment Perplexity trouve ses sources

Voici une question simple : quand vous demandez à Perplexity “quels sont les meilleurs outils de gestion de projet en 2026 ?”, comment fait-il pour vous répondre avec des sources fraîches d’il y a deux jours — alors que le modèle IA sous-jacent a été entraîné il y a des mois ?

La réponse tient en trois lettres : RAG.

Le Retrieval-Augmented Generation est l’architecture qui alimente Perplexity, ChatGPT Search, Google AI Overviews et Bing Copilot. C’est le pipeline invisible qui décide quels contenus méritent d’être lus, extraits, injectés dans la réponse — et donc cités. Comprendre le RAG, c’est comprendre exactement pourquoi votre contenu est sélectionné ou ignoré par ces systèmes.

La différence fondamentale : LLM pur vs système RAG

Imaginez un expert très brillant, enfermé dans une bibliothèque depuis deux ans. Il a tout lu, tout mémorisé. Mais depuis qu’il est entré, plus aucun journal n’est arrivé. Vous pouvez lui poser des questions — il répondra avec précision sur tout ce qu’il a appris. Mais sur ce qui s’est passé ce matin ? Il ne sait pas.

C’est un LLM pur : un modèle entraîné sur des données figées, avec une date de coupure. GPT-4 dans sa version de base, Claude sans outils de recherche, Mistral en standalone — tous fonctionnent ainsi. Leurs réponses puisent exclusivement dans leur mémoire paramétrique, c’est-à-dire les milliards de poids ajustés lors de l’entraînement.

Le RAG change ce modèle de fond en comble. Cette fois, imaginez le même expert — mais avant de vous répondre, il envoie un assistant faire le tour des bibliothèques, récupérer les articles les plus pertinents du moment, et les poser sur son bureau. L’expert lit ces documents, les synthétise, et vous répond avec des sources fraîches entre les mains.

L’assistant qui fait les recherches, c’est le moteur de retrieval. L’expert qui synthétise, c’est le LLM. Ensemble, ils forment un système RAG.

Cette architecture change tout pour la visibilité en ligne. Le marché RAG, évalué à 1,94 milliard de dollars en 2025, devrait atteindre 9,86 milliards en 2030 avec un taux de croissance annuel composé de 38,4 % (MarketsandMarkets, 2025). Ce n’est pas une technologie de niche : c’est l’infrastructure centrale des moteurs IA grand public.

Étape 1 — La requête est reçue : RAG ou mémoire pure ?

Tout commence par une décision que vous ne voyez jamais : le système doit-il déclencher une recherche, ou peut-il répondre depuis sa mémoire d’entraînement ?

Cette décision n’est pas aléatoire. Elle repose sur ce qu’on appelle le routage de requête (query routing). Le modèle analyse votre question et cherche à répondre à une série de critères implicites :

La réponse nécessite-t-elle des informations récentes (actualité, prix, données) ?
La requête porte-t-elle sur des entités spécifiques (entreprises, personnes, produits) susceptibles d’avoir évolué ?
Y a-t-il une ambiguïté temporelle — “récent”, “dernière version”, “en 2026” ?
Le sujet est-il suffisamment précis pour que la mémoire d’entraînement soit fiable ?

Si l’une de ces conditions est remplie, le système déclenche la phase de retrieval. Dans le cas contraire — pour des questions de définition, de raisonnement général ou de code basique — il peut répondre directement depuis ses paramètres.

Chez Perplexity, dont l’architecture a été rendue publique en partie via leur infrastructure Vespa AI, ce routage est presque systématique : la plateforme exécute un pipeline RAG complet pour la quasi-totalité des requêtes. C’est une décision de conception délibérée, au nom de la fiabilité.

Étape 2 — La recherche : comment les sources sont trouvées et classées

C’est ici que les choses deviennent techniques — et directement actionnables pour votre stratégie de contenu.

L’embedding : transformer du texte en coordonnées

Quand le système démarre une recherche, il ne cherche pas des mots-clés. Il convertit la requête en vecteur — une série de nombres flottants représentant sa signification dans un espace mathématique à plusieurs centaines de dimensions.

Votre contenu a subi le même traitement au moment de l’indexation : chaque passage a été encodé par un modèle d’embedding, transformé en vecteur, et stocké dans une base de données vectorielle.

La recherche consiste alors à trouver les vecteurs les plus proches du vecteur-requête. “Proche” ne signifie pas lexicalement similaire — ça signifie sémantiquement proche. Une requête sur “comment réduire le taux de rebond” peut très bien remonter un passage qui ne contient pas ces mots exacts mais parle d‘“engagement utilisateur” et de “navigation entre pages”.

La recherche hybride : le meilleur des deux mondes

Les systèmes modernes ne font pas que de la recherche vectorielle. Ils combinent :

Recherche dense (vector search) : sémantique, capture l’intention
Recherche sparse (BM25/lexicale) : exactitude sur les termes précis, les noms propres, les acronymes
Machine-learned ranking : modèles entraînés qui combinent les deux signaux avec d’autres comme la fraîcheur et l’autorité du domaine

Perplexity utilise explicitement cette approche hybride via Vespa AI, qui gère plus de 200 milliards d’URLs uniques et traite des dizaines de milliers de mises à jour d’index par seconde en temps réel.

Le chunking : votre contenu est découpé en morceaux

Avant d’être vectorisé, votre contenu est chunké — découpé en passages de taille gérée par le système. C’est une étape critique dont la logique a un impact direct sur ce qui sera extrait de vos pages.

Les approches de chunking varient :

Taille fixe (ex : 512 tokens avec 10-20 % de chevauchement) : simple mais parfois brutal
Sémantique : découpage aux frontières naturelles du sens, en suivant la structure du document
Hiérarchique : création de plusieurs niveaux (résumé > section > paragraphe), permettant de chercher au bon niveau de granularité

Une recherche récente de Chroma (février 2026) montre que la segmentation récursive à 512 tokens atteint 69 % de précision versus 54 % pour le chunking sémantique sur certains benchmarks — mais les performances varient fortement selon la nature du contenu.

Ce que ça signifie pour vous : chaque paragraphe de votre contenu doit être autonome et complet. Les systèmes RAG ne récupèrent pas vos pages entières — ils extraient des fragments. Un passage qui n’a de sens que dans le contexte du reste de l’article ne sera pas cité de façon cohérente.

Étape 3 — L’injection dans le contexte : votre texte devient matière première

Une fois les passages les plus pertinents identifiés — généralement entre 5 et 20 selon le système et la complexité de la requête — ils sont injectés dans le contexte du LLM.

Concrètement, cela ressemble à un prompt enrichi :

[Requête utilisateur]
"Quels sont les meilleurs outils de gestion de projet en 2026 ?"

[Contexte récupéré]
Source 1 (blog.notion.so, 12/03/2026) : "Notion a lancé en janvier 2026 une intégration IA native permettant de..."
Source 2 (techcrunch.com, 05/03/2026) : "Linear a levé 35M$ pour développer..."
Source 3 (lemonde.fr, 20/02/2026) : "Selon une étude IDC, 67 % des équipes produit utilisent désormais..."
[...]

Le LLM reçoit ce bloc augmenté. Sa tâche n’est plus de générer depuis sa mémoire, mais de synthétiser depuis ces sources en les citant. C’est pour ça que RAG réduit les hallucinations : le modèle a quelque chose de concret à lire et à paraphraser.

Les études montrent que l’introduction d’un pipeline RAG réduit les taux d’hallucination de 70 à 90 % par rapport à un LLM sans grounding (Roots Analysis, 2025). Mais cette protection n’est pas absolue — si les sources récupérées sont elles-mêmes erronées ou biaisées, le modèle peut propager ces erreurs.

La fenêtre de contexte : un espace limité, une compétition réelle

La fenêtre de contexte d’un LLM est finie. Même si GPT-4o gère 128 000 tokens et Gemini 1.5 jusqu’à 1 million, les implémentations RAG n’injectent pas tout — elles sélectionnent et re-classent les passages avant de les inclure.

Cette phase de re-ranking est souvent assurée par un modèle distinct, plus précis que la recherche vectorielle initiale. Il évalue chaque paire (requête + passage) et attribue un score de pertinence contextualisé. Bing Copilot, par exemple, utilise un cross-encoder qui “capture les nuances que la simple similarité vectorielle rate” selon sa documentation technique.

Un fait clé : 44,2 % des citations LLM sont issues des 30 premiers pourcents du texte (Growth Memo, 2026). Les passages en début d’article ont mécaniquement plus de chances d’être extraits — un argument de plus pour des introductions directes et informatives.

Étape 4 — La génération : synthèse et citation

Le LLM reçoit les passages injectés et génère une réponse cohérente. Dans les systèmes RAG bien construits, chaque affirmation est tracée jusqu’à sa source — d’où les numéros de citation que vous voyez dans Perplexity ou Bing.

Cette phase de génération suit quelques règles implicites :

Le modèle paraphrase plus qu’il ne copie — ce qui signifie que votre formulation exacte n’est souvent pas reprise, mais votre idée, si
Les passages clairs, directs et structurés sont plus facilement synthétisés
Les contenus qui répondent à une question (format Q&A, paragraphes conclusifs) sont favoris
Les données chiffrées et les études sont souvent reprises quasi-verbatim pour leur précision

Une donnée importante pour la stratégie de contenu : 53,4 % des pages citées par les LLMs contiennent moins de 1 000 mots (Digital Bloom, 2025). Le contenu long n’est pas un avantage absolu — la densité d’information et la clarté le sont.

Ce que ça implique pour votre contenu : les optimisations spécifiques RAG

Maintenant que vous comprenez la mécanique, voici ce que ça change concrètement pour votre production de contenu.

1. Structurez pour le chunking, pas pour la lecture linéaire

Chaque section doit pouvoir exister seule. Évitez les constructions du type “comme vu précédemment” ou “nous reviendrons sur ce point plus bas”. Le système RAG ne récupère que le fragment — pas la page entière.

2. Placez les informations critiques en début de contenu

44 % des citations viennent du premier tiers du texte. Votre conclusion ne sera peut-être jamais lue par le système. Commencez par la réponse, développez ensuite.

3. Soignez les entités nommées et les termes précis

La recherche hybride pèse les deux signaux : sémantique et lexical. Les noms propres, acronymes et termes techniques exacts sont rattrapés par la recherche sparse — ils doivent être présents explicitement dans votre texte, pas seulement implicitement.

4. Publiez régulièrement du contenu frais

85 % des citations LLMs proviennent de contenu publié dans les deux dernières années, et 44 % spécifiquement de 2025 (Seer Interactive, 2025). La fraîcheur est un signal de ranking dans les systèmes RAG, pas seulement dans les moteurs traditionnels.

5. Pensez paragraphe, pas article

L’unité de base du RAG, c’est le chunk — équivalent d’un paragraphe dense. Optimiser un article pour le RAG, c’est en réalité optimiser une série de paragraphes autonomes qui répondent chacun à une micro-question potentielle.

Les différences entre les implémentations

Toutes les plateformes ne font pas du RAG de la même façon. Voici comment se distinguent les quatre grands acteurs :

Système	Index	Retrieval	Re-ranking	Citations	Fraîcheur
Perplexity	Temps réel (Vespa AI, 200Mds URLs)	Hybride (dense + sparse)	Clarté, entité, pertinence requête	Visible avant réponse	Très haute — recherche live
ChatGPT Search	Pas d’index propre	Via API Bing + fetch URL runtime	LLM interne	Inline ou fin de réponse	Haute — fetch temps réel
Google AI Overviews	Index Google natif	Multi-requêtes parallèles (fan-out)	E-E-A-T + extractabilité snippet	Sidebar ou inline	Très haute — index live
Bing Copilot	Index Bing + Microsoft Graph	BM25 + vector search parallèles	Cross-encoder passage-level	Superscripts + cards	Haute — index Bing

Perplexity : l’architecture RAG-native

Perplexity est le seul acteur à avoir construit son produit entièrement autour du RAG dès le départ. Son pipeline est exécuté pour presque chaque requête. L’infrastructure Vespa gère 400 pétaoctets en stockage chaud, avec des mises à jour d’index en temps réel. Le re-ranking favorise explicitement les passages clairs, directs et structurés — ce qui explique pourquoi le contenu avec des listes et des définitions précises performe bien sur cette plateforme.

Statistiquement, Perplexity cite des sources dans le top 10 de Google 91 % du temps — la corrélation avec le SEO traditionnel est forte (Semrush, 2025).

ChatGPT Search : le délégué qui fait confiance à Bing

ChatGPT ne maintient pas d’index propre. Quand une recherche est nécessaire, il envoie des requêtes à l’API Bing, récupère une liste courte d’URLs, puis fetche le contenu complet de ces pages au moment de la requête. C’est une approche de “lecteur instantané” — plus flexible mais moins scalable.

Sa dépendance à Bing explique une particularité : ChatGPT Search montre seulement 14 % de chevauchement avec les top-10 Google, préférant des sources fraîches ou conversationnelles que Bing remonte en priorité (SE Ranking, 2025).

Google AI Overviews : le fan-out multi-index

Google a l’avantage de son propre index — l’un des plus grands au monde. Quand AI Overviews traite une requête, le système déploie un query fan-out : la requête initiale est décomposée en plusieurs sous-requêtes qui partent simultanément interroger différentes parties de l’index (web, Knowledge Graph, YouTube, verticals spécialisés).

Le re-ranking applique les critères E-E-A-T et un filtre d‘“extractabilité” — le système évalue si le passage peut être extrait proprement et cité. 99,5 % des sources d’AI Overviews viennent du top-10 organique (seoClarity, 2026) : ici, le SEO traditionnel et le GEO sont plus alignés que chez les autres acteurs.

Bing Copilot : la double piste

Microsoft Copilot (anciennement Bing Chat) exécute deux recherches en parallèle — BM25 lexicale et vector search sémantique — avant de fusionner les résultats via Reciprocal Rank Fusion. Un cross-encoder de re-ranking évalue ensuite chaque paire (requête + passage) avec une précision plus fine que la similarité cosinus. L’intégration avec Microsoft 365 ajoute une dimension organisationnelle unique : Copilot peut retriever depuis des documents internes via Microsoft Graph.

Les limites et problèmes du RAG : ce qu’on ne vous dit pas assez

Le RAG n’est pas une solution parfaite. Plusieurs problèmes structurels méritent d’être connus.

Les hallucinations persistent. Même avec un grounding factuel, les modèles peuvent générer des assertions qui contredisent leurs sources — notamment quand les “Knowledge FFNs” du LLM surécrivent le contexte récupéré. LexisNexis et Thomson Reuters, qui utilisent des pipelines RAG pour leur recherche juridique, hallucinent encore entre 17 et 33 % du temps selon une étude de Stanford (2025).

Le biais de sélection est réel. Seuls les contenus indexés, accessibles et correctement chunkeables entrent dans le pipeline. Le contenu derrière des murs de connexion, en JavaScript non-rendu ou dans des formats non-parsables (PDF mal structurés, images) est invisible — indépendamment de sa qualité.

La qualité des sources s’auto-reproduit. Les systèmes RAG tendent à remonter les sources déjà établies. 38 % de toutes les citations IA sont concentrées sur cinq domaines : Wikipedia, YouTube, Reddit, les propriétés Google et Amazon (Digital Bloom, 2025). Les nouveaux entrants ont structurellement plus de mal à percer.

La fraîcheur crée une course permanente. Les contenus de plus de deux ans représentent seulement 15 % des citations. L’avantage du contenu récent est réel, mais il impose une cadence de publication et de mise à jour que tous les créateurs ne peuvent pas soutenir.

Comprendre le RAG, c’est comprendre que la visibilité dans les moteurs IA n’est pas mystérieuse — elle est mécanique. Votre contenu entre dans un pipeline précis, avec des critères précis, à chaque étape. Optimiser pour le RAG, c’est optimiser pour chacune de ces étapes : indexabilité technique, structure en paragraphes autonomes, densité sémantique, fraîcheur, clarté.

La bonne nouvelle : les règles du jeu sont lisibles. Ce qui est lisible est optimisable.

Sources :

— MarketsandMarkets, “Retrieval-Augmented Generation (RAG) Market worth $9.86 billion by 2030”, 2025 — marketsandmarkets.com

— ByteByteGo, “How Perplexity Built an AI Google” — architecture Vespa AI et pipeline RAG Perplexity, 2025 — blog.bytebytego.com

— iPullRank, “AI Search Architecture Deep Dive: Teardowns of Leading Platforms”, 2025 — ipullrank.com

— PragoMedia, “New Data Confirms Top Google Rankings Matter for ChatGPT, Perplexity & AI Search”, mars 2026 — pragomedia.com

— Digital Bloom, “2025 AI Visibility Report: How LLMs Choose What Sources to Mention”, 2025 — thedigitalbloom.com

— Stanford Law, “Legal RAG Hallucinations”, Journal of Empirical Legal Studies, 2025 — dho.stanford.edu

— Chroma Research, “Evaluating Chunking Strategies for Retrieval”, février 2026 — research.trychroma.com

— Ralf van Veen, “The role of RAG in GEO and content ranking”, 2025 — ralfvanveen.com

— Seer Interactive / BrightEdge, données citations LLM fraîcheur et structure, 2025

— DemandSage, “Perplexity AI Statistics 2026”, mars 2026 — demandsage.com