Vos logs serveur sont une mine d’informations sur les visiteurs de votre site, y compris les visiteurs invisibles que sont les bots IA. GPTBot, OAI-SearchBot, PerplexityBot et leurs cousins laissent des traces précises dans vos fichiers de logs. Savoir les lire est une compétence GEO fondamentale.
Ce guide vous explique comment accéder à vos logs, les filtrer pour isoler le trafic IA et en extraire des insights actionnables pour votre stratégie GEO.
Comprendre ce que contiennent vos logs serveur
Un fichier de log serveur enregistre chaque requête HTTP reçue par votre serveur. Chaque ligne correspond à une visite unique et contient plusieurs informations structurées :
- L’adresse IP du visiteur (humain ou bot)
- La date et l’heure de la visite
- La méthode HTTP utilisée (GET, POST, etc.)
- L’URL demandée
- Le code de réponse HTTP (200 = succès, 404 = non trouvé, etc.)
- La taille de la réponse envoyée
- Le referrer (page d’où provient la requête)
- Le user-agent (identifiant du navigateur ou du bot)
C’est le champ user-agent qui vous permet d’identifier les bots IA. GPTBot s’identifie explicitement comme GPTBot. PerplexityBot fait de même. Cette transparence facilite considérablement le filtrage.
Comment accéder à vos logs serveur
Via votre hébergeur
La majorité des hébergeurs web proposent un accès aux logs via leur panneau de contrôle (cPanel, Plesk, DirectAdmin). Cherchez la section Logs, Raw Access ou Statistiques avancées. Les logs y sont disponibles en téléchargement au format .gz (compressé) ou .log (texte brut).
La rétention des logs varie selon les hébergeurs : de quelques jours à plusieurs mois. Si vous souhaitez analyser l’évolution sur la durée, configurez un téléchargement automatique régulier des logs vers un stockage externe.
Via SSH et accès direct au serveur
Si vous avez un accès SSH à votre serveur, les logs Apache se trouvent généralement dans /var/log/apache2/ et les logs Nginx dans /var/log/nginx/. La commande suivante filtre directement les lignes correspondant aux bots IA :
grep -i ‘gptbot\|oai-searchbot\|perplexitybot\|claudebot’ /var/log/nginx/access.log
Cette commande affiche toutes les lignes de log où l’un des bots IA identifiés a effectué une requête. Redirigez la sortie vers un fichier pour l’analyser plus tranquillement :
grep -i ‘gptbot\|oai-searchbot\|perplexitybot’ /var/log/nginx/access.log > bots_ia.log
Analyser les logs avec des outils dédiés
GoAccess : l’outil gratuit le plus efficace
GoAccess est un analyseur de logs en temps réel, gratuit et open source. Il génère des rapports HTML interactifs à partir de vos fichiers de logs. Son installation est simple sur Linux et Mac.
Pour générer un rapport filtré sur les bots IA avec GoAccess :
grep -i ‘gptbot\|perplexitybot\|oai-searchbot’ access.log | goaccess – –log-format=COMBINED -o rapport_bots.html
Le rapport HTML produit affiche les pages les plus visitées par les bots filtrés, les horaires de visite, les codes de réponse et les volumes de données transférés. Ces informations vous donnent une image précise de l’activité des bots IA sur votre site.
AWStats et Webalizer : les solutions intégrées hébergeur
AWStats et Webalizer sont fréquemment préinstallés par les hébergeurs. Ils analysent automatiquement vos logs et génèrent des rapports mensuels. Leur inconvénient est qu’ils ne filtrent pas par défaut les bots IA spécifiques. Vous devez configurer des règles personnalisées pour isoler GPTBot et ses cousins.
Splunk, ELK Stack : pour les environnements enterprise
Les organisations qui gèrent des volumes importants de logs bénéficient de plateformes d’analyse de logs comme Splunk ou la stack ELK (Elasticsearch, Logstash, Kibana). Ces outils permettent des requêtes complexes, des visualisations avancées et des alertes automatiques sur des patterns de bots IA.
Les insights à extraire de vos logs IA
Fréquence de visite par bot
La fréquence à laquelle chaque bot visite votre site révèle son niveau d’intérêt pour votre contenu. GPTBot qui revisite votre site plusieurs fois par semaine indique que ChatGPT considère votre contenu comme une source à maintenir à jour dans son index.
Une fréquence de visite faible ou nulle pour PerplexityBot, malgré un contenu public, peut indiquer que votre site est bloqué dans robots.txt ou que les bots rencontrent des problèmes techniques. Cela mérite une investigation immédiate.
Pages les plus explorées par les bots IA
Les pages les plus visitées par les bots IA sont vos meilleures candidates à la citation dans les LLM. Ces pages ont attiré l’attention des bots, ce qui est un premier signal positif.
Analysez ce qui distingue ces pages de celles qui sont peu ou pas explorées. Est-ce leur structure ? Leur longueur ? Leur thématique ? Leurs mots-clés ? Ces insights orientent vos prochaines productions éditoriales.
Codes de réponse rencontrés par les bots
Un code 200 indique que le bot a accédé à la page avec succès. Un code 404 signifie que le bot a tenté d’accéder à une page inexistante. Un code 403 indique un accès refusé par votre configuration. Un code 503 révèle une indisponibilité temporaire du serveur.
Un volume important de codes 404 pour les bots IA signale que des pages référencées dans d’autres sources n’existent plus sur votre site. Ces URLs cassées nuisent à votre indexabilité IA. Mettez en place des redirections 301 vers le contenu le plus proche.
Mettre en place une veille des logs IA
L’analyse ponctuelle des logs est utile. La veille continue est beaucoup plus puissante. Configurez une analyse automatique mensuelle de vos logs pour détecter les évolutions du comportement des bots IA.
Surveillez particulièrement les changements de fréquence de visite (un bot qui s’arrête subitement peut signaler un blocage involontaire) et les nouvelles pages explorées (un bot qui découvre de nouvelles sections indique que votre stratégie de contenu fonctionne).
Les logs serveur sont la source la plus fiable et la plus précise pour comprendre comment les bots IA interagissent avec votre site. Maîtriser leur lecture transforme le GEO d’une discipline intuitive en une pratique basée sur des données réelles et vérifiables.