09 75 36 32 17
Blog NEWP

Qu’est-ce qu’un token en IA ?

Dès qu’on s’intéresse à l’intelligence artificielle générative, un mot revient sans cesse : token. On le croise dans la facturation des API, dans les limites des abonnements comme Claude Pro, dans les annonces de « fenêtre de contexte » qui se comptent désormais en millions. Mais c’est quoi, un token, concrètement ? Ni tout à fait une lettre, ni exactement un mot : le token est l’unité de base que manipule un modèle de langage pour lire et écrire du texte. Comprendre cette notion, c’est comprendre comment l’IA « voit » votre texte, pourquoi certaines requêtes coûtent plus cher que d’autres, et comment dimensionner vos usages. Voici une explication complète et sans jargon inutile.

Définition : qu’est-ce qu’un token en IA ?

Un token est une unité de texte manipulée par un modèle de langage (LLM, pour large language model). C’est le plus petit morceau de texte que le modèle traite réellement. Point important : un token n’est pas une lettre, et ce n’est pas non plus exactement un mot. Il se situe quelque part entre les deux.

Dans la pratique, un mot courant correspond souvent à un seul token. Mais un mot long, rare, technique ou accentué peut être découpé en plusieurs tokens. Le modèle ne « lit » donc pas des mots au sens où nous l’entendons : il lit une suite de tokens, qu’il a appris à reconnaître et à enchaîner. Quand on parle de « token IA » ou de « token intelligence artificielle », on désigne toujours cette même brique élémentaire de texte.

Token, mot, caractère : quelle différence ?

  • Le caractère est la plus petite unité visible : une lettre, un chiffre, un espace, un signe de ponctuation.
  • Le mot est une unité de sens pour l’humain, délimitée par des espaces.
  • Le token est une unité de traitement pour la machine : il peut couvrir un mot entier, un fragment de mot (préfixe, racine, terminaison), un signe de ponctuation ou même un simple espace.

Autrement dit, le découpage en tokens ne suit pas toujours notre intuition. Un mot très fréquent comme « le » sera un token unique ; un mot rare ou composé pourra être éclaté en plusieurs morceaux que le modèle réassemble.

Pourquoi les modèles d’IA utilisent-ils des tokens ?

Un modèle de langage ne comprend pas le texte comme un humain : il manipule des nombres. Avant tout traitement, votre texte passe donc par une étape de tokenisation, qui le découpe en tokens, chacun étant ensuite converti en un identifiant numérique que le modèle sait traiter.

Pourquoi ne pas simplement découper en mots, ou en lettres ? Parce que le token est un compromis efficace. Découper lettre par lettre obligerait le modèle à manipuler des séquences gigantesques pour le moindre paragraphe. Découper mot par mot poserait problème dès qu’apparaît un mot inconnu, mal orthographié, dans une langue étrangère ou inventé. Le token, lui, permet de représenter aussi bien les mots fréquents (en un seul morceau) que les mots rares (en plusieurs fragments réutilisables), tout en gardant des séquences de taille raisonnable.

La génération token par token

Les tokens servent au modèle dans les deux sens : pour lire votre demande, et pour écrire sa réponse. Et c’est là que se trouve un point essentiel : un LLM génère son texte token par token. À chaque étape, il prédit le token suivant le plus probable compte tenu de tout ce qui précède, l’ajoute à la suite, puis recommence. La réponse que vous lisez d’un trait est en réalité construite morceau après morceau, dans cet enchaînement de prédictions.

Cette mécanique explique pourquoi une réponse longue prend plus de temps à s’afficher qu’une réponse courte : chaque token supplémentaire demande un calcul. Elle explique aussi, on le verra, pourquoi la longueur de la réponse a un impact direct sur le coût.

Comment sont comptés les tokens ?

La question « comment sont comptés les tokens » revient souvent, car de la réponse dépendent vos coûts et vos limites. Le repère mental le plus utile est le suivant : en moyenne, un mot vaut à peu près un token. C’est une approximation, mais elle suffit pour estimer rapidement un ordre de grandeur.

Ce ratio varie toutefois selon la langue. En anglais, les mots sont souvent courts et très présents dans le vocabulaire d’apprentissage : on compte généralement un peu moins d’un token par mot. En français, c’est l’inverse : les mots sont en moyenne plus longs, les accents et certaines terminaisons entraînent des découpages supplémentaires, si bien qu’on compte plutôt un peu plus d’un token par mot. Un même texte traduit de l’anglais vers le français consommera donc, en général, davantage de tokens.

Ordres de grandeur : du mot à la page

Pour vous donner des repères concrets, voici quelques équivalences qualitatives entre un volume de texte et le nombre de tokens correspondant. Ce sont des ordres de grandeur, pas des valeurs exactes : le décompte réel dépend du contenu et de la langue.

TexteOrdre de grandeur en tokens
Un mot courant≈ 1 token
Un mot long, rare ou accentuéplusieurs tokens
Une phrase courtequelques dizaines de tokens
Un paragraphede l’ordre de la centaine de tokens
Une page A4 bien remplieplusieurs centaines de tokens
Un long document (plusieurs pages)plusieurs milliers de tokens
Un livre entierde l’ordre de la centaine de milliers de tokens

Ces repères suffisent dans la plupart des cas pour anticiper si une requête « tiendra » dans les limites d’un modèle. Pour un décompte précis, les fournisseurs proposent des outils dédiés (compteurs de tokens), mais l’estimation « un mot ≈ un token » reste votre meilleur réflexe au quotidien.

Tokens d’entrée et tokens de sortie

Il faut distinguer deux familles de tokens, car elles ne jouent pas le même rôle ni, souvent, le même prix.

  • Les tokens d’entrée (input) : tout ce que vous envoyez au modèle. Votre question, vos instructions, les documents que vous collez, et plus largement tout le contexte transmis.
  • Les tokens de sortie (output) : tout ce que le modèle génère en réponse, token par token comme on l’a vu.

Cette distinction a une conséquence financière directe lorsqu’on passe par une API. La sortie coûte nettement plus cher que l’entrée : sur la gamme Claude, par exemple, le tarif des tokens de sortie est de l’ordre de cinq fois celui des tokens d’entrée. Concrètement, demander à un modèle de produire une très longue réponse pèse davantage sur la facture que de lui fournir un long texte à lire.

Pourquoi le décompte des tokens compte vraiment

Au-delà de la curiosité technique, les tokens ont trois conséquences pratiques très concrètes pour quiconque utilise l’IA générative.

1. Le coût via API : une facturation au million de tokens

Lorsqu’on intègre un modèle d’IA via son API (pour automatiser une tâche, alimenter une application, traiter des volumes), la facturation se fait au million de tokens, séparément pour l’entrée et la sortie. Comme la sortie coûte plus cher, la longueur des réponses générées devient un véritable levier d’optimisation : des réponses plus concises, c’est mécaniquement une facture plus légère. C’est un sujet à part entière, que nous détaillons dans notre guide pour économiser ses tokens avec Claude.

2. Les limites d’usage sur abonnement

Si vous utilisez l’IA via un abonnement grand public (comme Claude Pro), vous n’êtes pas facturé au token : vous payez un forfait. En revanche, votre usage est encadré par des limites. Ces limites s’expriment, en coulisses, en volume de tokens consommés sur une période donnée. Plus vos conversations sont longues et chargées, plus vous approchez vite du plafond. Savoir alléger ses échanges permet donc d’en faire davantage avant d’atteindre la limite : à ce sujet, voir notre article sur la façon de compacter les conversations avec Claude.

3. La fenêtre de contexte

La fenêtre de contexte (context window) est la quantité maximale de tokens qu’un modèle peut traiter d’un seul coup, entrée et sortie comprises. C’est, en quelque sorte, sa « mémoire de travail » immédiate. Tout ce qui dépasse cette fenêtre ne peut pas être pris en compte simultanément.

Les modèles récents disposent de fenêtres très larges : les plus capables atteignent désormais jusqu’à un million de tokens, tandis que les modèles plus légers se situent à quelques centaines de milliers de tokens. Une fenêtre d’un million de tokens permet, en ordre de grandeur, de soumettre l’équivalent de plusieurs longs ouvrages en une seule fois. C’est ce qui rend possible l’analyse de documents volumineux, de bases de code entières ou de longues conversations, sans que le modèle ne « perde le fil » en cours de route.

Comment réduire sa consommation de tokens ?

Puisque les tokens conditionnent à la fois le coût (en API) et les limites (en abonnement), apprendre à en consommer moins est un réflexe rentable. Quelques principes simples : formuler des instructions claires et concises, éviter de coller des documents entiers quand un extrait suffit, demander explicitement des réponses synthétiques quand le détail n’est pas nécessaire, et repartir d’une conversation propre plutôt que d’accumuler un historique interminable.

Nous avons consacré deux guides pratiques à ce sujet : l’un pour réduire concrètement votre consommation de tokens, l’autre pour garder vos conversations légères et efficaces dans la durée.

Maîtrisez l’IA dans votre activité

Usage des modèles, optimisation des coûts, visibilité dans les moteurs IA (GEO) : NEWP vous accompagne.

Découvrir notre accompagnement IA & GEO →

Foire aux questions sur les tokens en IA

Un token, c’est un mot ?

Pas exactement. Un token est une unité de texte qui peut correspondre à un mot entier, mais aussi à un fragment de mot ou à un signe de ponctuation. En pratique, un mot courant vaut souvent un token, tandis qu’un mot long, rare ou accentué peut en valoir plusieurs. Le repère « un mot ≈ un token » est une bonne approximation, sans plus.

Pourquoi le français consomme-t-il plus de tokens que l’anglais ?

Parce que les mots français sont en moyenne plus longs, et que les accents ainsi que certaines terminaisons entraînent des découpages supplémentaires. Là où l’anglais compte souvent un peu moins d’un token par mot, le français en compte un peu plus. Un même contenu consomme donc généralement davantage de tokens en français qu’en anglais.

Pourquoi les tokens de sortie coûtent-ils plus cher ?

Parce que générer du texte demande au modèle un travail de prédiction token par token, plus exigeant que la simple lecture du texte fourni. Via API, cette différence se traduit dans les tarifs : sur la gamme Claude, par exemple, la sortie est de l’ordre de cinq fois plus chère que l’entrée. D’où l’intérêt de privilégier des réponses concises quand c’est possible.

Qu’est-ce que la fenêtre de contexte exactement ?

C’est le nombre maximal de tokens qu’un modèle peut traiter en une seule fois, entrée et sortie confondues. Les modèles récents atteignent jusqu’à un million de tokens pour les plus capables, quelques centaines de milliers pour les plus légers. Au-delà de cette limite, le contenu supplémentaire ne peut pas être pris en compte simultanément. Pour aller plus loin sur vos usages IA et votre visibilité dans les moteurs génératifs, parlons de votre projet.

Partager : 𝕏 in fb 🔗

Sébastien Joumel

Sébastien est en charge de la stratégie marketing chez NEWP. Ancien sportif de haut-niveau et passionné de performances, il conseille les clients de l’agence sur leur stratégie marketing et webmarketing. Il est auteur de plusieurs livres sur les fiches Google Profile Business et c’est lui qui se charge de réaliser les audits de fiche Google.

Audit gratuit

Obtenez votre audit SEO & GEO gratuit en 48h

Analyse complète de votre présence digitale sans engagement. Découvrez les opportunités de croissance de votre site web grâce à l’IA.

Demander l’audit 09 75 36 32 17

Besoin d'aide ?

Notre équipe est disponible pour un audit gratuit de votre projet web.

09 75 36 32 17
Réponse sous 24h · Audit GEO offert