Votre fichier robots.txt est la première porte que les bots IA franchissent — ou tentent de franchir — avant d’explorer votre site. Une configuration inadaptée peut rendre votre contenu invisible pour ChatGPT, Perplexity ou Claude, quelle que soit sa qualité rédactionnelle.
Ce guide pratique vous explique exactement comment configurer votre robots.txt pour autoriser les principaux bots IA, protéger vos contenus sensibles et maximiser votre indexabilité dans les LLM.
Comprendre le rôle du robots.txt dans le GEO
Le fichier robots.txt est un fichier texte placé à la racine de votre site web. Il communique aux robots d’exploration (crawlers) les règles d’accès à votre site. Les bots respectueux — dont font partie GPTBot, OAI-SearchBot et PerplexityBot — lisent ce fichier avant d’explorer votre contenu.
Un robots.txt mal configuré peut bloquer involontairement les bots IA. Cela arrive fréquemment quand une directive globale de blocage a été ajoutée pour d’autres raisons (protection contre le scraping, limitation de la charge serveur) sans prévoir d’exceptions pour les bots IA légitimes.
La bonne nouvelle : la configuration du robots.txt pour les bots IA est simple et rapide. Elle ne nécessite pas de compétences techniques avancées. Quelques lignes de texte suffisent pour ouvrir votre site aux LLM les plus importants.
Les principaux bots IA et leurs identifiants
Chaque bot IA s’identifie avec un user-agent spécifique. Voici les identifiants des principaux bots actifs en 2026 :
- GPTBot — bot d’entraînement d’OpenAI (accès aux données d’entraînement de ChatGPT)
- OAI-SearchBot — bot de navigation web temps réel de ChatGPT
- PerplexityBot — indexeur de Perplexity AI
- ClaudeBot — bot d’entraînement d’Anthropic
- Google-Extended — bot de Google pour les modèles Gemini
- Applebot-Extended — bot d’Apple pour Apple Intelligence
- FacebookBot — bot de Meta pour ses modèles IA
Chacun de ces bots respecte les directives robots.txt. Les autoriser ou les bloquer se fait individuellement, avec une précision maximale.
Scénario 1 : autoriser tous les bots IA sur tout le site
Si votre site est entièrement public et que vous souhaitez maximiser votre indexabilité IA, autorisez tous les bots IA de manière explicite. Voici la configuration à ajouter dans votre robots.txt :
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
Ces directives indiquent clairement que chaque bot est autorisé à explorer l’intégralité de votre site. La mention explicite est préférable à l’absence de directive, car elle confirme votre intention et évite toute ambiguïté d’interprétation.
Scénario 2 : autoriser partiellement les bots IA
Si votre site contient des zones publiques et des zones privées (espace client, contenu premium, données internes), configurez des exceptions ciblées. Voici un exemple de configuration partielle :
User-agent: GPTBot
Allow: /blog/
Allow: /ressources/
Allow: /guides/
Disallow: /espace-client/
Disallow: /premium/
Disallow: /admin/
Cette configuration autorise GPTBot à explorer vos contenus publics (blog, ressources, guides) tout en bloquant l’accès aux zones sensibles. Appliquez la même logique pour chaque bot IA selon vos besoins spécifiques.
Scénario 3 : bloquer un bot IA spécifique
Vous pouvez choisir de bloquer certains bots IA tout en autorisant d’autres. Cette approche vous permet de décider quelles plateformes peuvent indexer votre contenu. Par exemple, pour bloquer uniquement GPTBot tout en autorisant les autres :
User-agent: GPTBot
Disallow: /
Cette décision a des implications stratégiques. Bloquer GPTBot exclut votre contenu des données d’entraînement et de la navigation web d’OpenAI. Évaluez soigneusement les avantages et inconvénients avant d’implémenter un blocage.
Vérifier votre configuration actuelle
Avant toute modification, vérifiez votre robots.txt actuel. Accédez à l’URL votresite.com/robots.txt depuis votre navigateur. Si la page affiche une erreur 404, votre site n’a pas de robots.txt. Créez-en un dans le répertoire racine de votre site.
Si le fichier existe, cherchez des directives qui pourraient bloquer les bots IA. La directive « User-agent: * / Disallow: / » bloque tous les robots sans exception. Vérifiez aussi si des user-agents spécifiques à des bots IA y figurent avec des directives Disallow.
Tester votre robots.txt après modification
Après chaque modification, testez votre configuration avec l’outil Google Search Console. Naviguez vers Paramètres > Testeur robots.txt. Entrez l’URL d’une page clé et le user-agent GPTBot ou OAI-SearchBot. L’outil confirme si le bot peut accéder à la page selon votre configuration.
Testez aussi directement en cherchant des visites récentes de bots IA dans vos logs serveur. Si GPTBot ou OAI-SearchBot apparaissent dans les logs après votre modification, la configuration fonctionne correctement.
Un robots.txt bien configuré pour les bots IA est un prérequis fondamental à toute stratégie GEO. Sans cette base technique, vos efforts rédactionnels et éditoriaux ne pourront pas atteindre leur plein potentiel dans les LLM.