Concepts · IA générative

Token et context window : pourquoi l'IA oublie, et ce que ça coûte vraiment

13 juin 2026 · 6 min de lecture

Guide : Les bases de l'IA générative

Token et context window : pourquoi l'IA oublie, et ce que ça coûte

Un token est un morceau de mot. C'est en réalité l'unité de base qu'un modèle de langage sait manipuler (lire, générer). C'est aussi l'unité qui permet d'établir tes factures quand tu utilises des modèles de langage chez des fournisseurs comme Anthropic ou OpenAI. La context window (fenêtre de contexte) est tout ce qu'il peut voir d'un seul coup, sa mémoire de travail pour un échange. Si ton texte dépasse cette fenêtre, le plus ancien en sort, et ce qui sort n'existe plus pour le modèle. C'est ça, le fameux « oubli » de l'IA.

Un token, c'est quoi au juste

Un modèle de langage ne lit pas des lettres ni des mots entiers : il lit des tokens. Un token est un fragment de texte, souvent un bout de mot. Le mot « anticonstitutionnel » peut être découpé en plusieurs tokens, alors qu'un mot courant comme « table » en occupe un seul. Les espaces et la ponctuation comptent aussi.

Pour te donner un ordre de grandeur, en anglais : un token vaut en gros 4 caractères, soit à peu près les trois quarts d'un mot. C'est une règle approximative, pas une loi. En français l'ordre varie (nos mots sont souvent plus longs et plus découpés), donc compte un peu plus de tokens pour un même nombre de mots.

Pourquoi t'en soucier ? Parce que tout se mesure en tokens : ce que tu envoies, ce que le modèle répond, et la facture. Le prix d'une requête est proportionnel au nombre de tokens en entrée et en sortie. Un prompt deux fois plus long coûte grosso modo deux fois plus cher.

La context window, sa mémoire de travail

La context window est la quantité maximale de tokens que le modèle peut prendre en compte en une fois. Imagine un bureau d'une taille fixe : tu peux y étaler une certaine quantité de feuilles, pas plus. Tout ce qui tient sur le bureau, le modèle le voit. Ce que tu poses par-dessus pousse le reste hors du bord.

Cette fenêtre contient tout l'échange en cours : tes instructions, les documents que tu colles, la réponse en train de s'écrire, et l'historique de la conversation. Les fenêtres modernes sont devenues très grandes (certaines dépassent des centaines de milliers de tokens en 2026), mais elles restent finies. Aucune n'est infinie.

Point clé : le modèle n'a pas de mémoire entre deux échanges séparés. Si tu ouvres une nouvelle conversation, il repart de zéro. Et même dans une seule conversation, ce qui glisse hors de la fenêtre disparaît pour lui.

Pourquoi l'IA « oublie »

Voilà le scénario que tout le monde a vécu. Sophie, chez Maisons&Mobilia, colle un contrat fournisseur de quarante pages dans le chat, puis pose ses questions au fil de l'eau. Au bout d'un long échange, elle revient sur une clause du début du document. La réponse devient floue, ou le modèle invente. Le début du contrat est sorti de la fenêtre : poussé dehors par tout le reste, il n'existe tout simplement plus pour le modèle.

Ce n'est pas un bug ni un caprice. Le modèle ne « décide » pas d'oublier : ce qui n'est plus dans la context window n'est plus une information disponible, point. Il ne peut pas aller le rechercher tout seul.

Le même phénomène explique les conversations qui partent en vrille après une heure. Les premières consignes (« réponds en français, ton formel, format liste ») finissent par sortir de la fenêtre, et le modèle ne les suit plus. Il ne te désobéit pas : il ne les voit plus.

Les conséquences concrètes

Trois effets très terre à terre découlent de tout ça.

Le coût d'abord. Comme la facture suit le nombre de tokens, tout coller en bloc dans chaque requête revient cher et lent. Renvoyer l'historique complet à chaque message d'une longue conversation, c'est repayer ce contexte à chaque tour.

La perte de fil ensuite. Plus l'échange est long ou le document volumineux, plus le risque que l'utile sorte de la fenêtre augmente. Les éléments du début sont les premiers menacés.

La qualité enfin. Même dans une fenêtre large, noyer le modèle sous des pages peu pertinentes dilue ce qui compte. Trop de contexte n'est pas toujours mieux : du contexte ciblé l'est presque toujours.

Ce que tu peux faire, et ce que fait le RAG

Côté usage, deux réflexes aident. Ne fournis que le passage utile plutôt que le document entier, et résume puis repars sur un fil neuf quand une conversation s'éternise.

Côté outil, c'est exactement le problème que résout le RAG. Au lieu d'entasser tout le savoir dans la fenêtre, on stocke les documents à part et on ne va chercher que les quelques extraits pertinents pour la question posée, qu'on glisse dans le contexte. Si Maisons&Mobilia branchait un RAG sur ses contrats, Sophie n'aurait pas à coller les quarante pages : l'outil retrouverait juste la clause concernée et l'injecterait dans la fenêtre, fraîche et complète.

La context window n'est donc pas une faiblesse à contourner, c'est une contrainte à comprendre. Une fois que tu sais que le modèle ne voit qu'une fenêtre finie, mesurée en tokens et facturée au token, tu écris des prompts plus courts, plus ciblés, et tu choisis mieux tes outils.

Aller plus loin

Sur saisir.ai, tu apprends ces mécanismes en les manipulant directement : des modules courts, environ 5 minutes par jour, en français, sans une ligne de code. Tu vois concrètement ce qu'est un token et comment une fenêtre se remplit.

Pour creuser, lis c'est quoi un LLM pour comprendre la machine qui lit ces tokens, et qu'est-ce qu'un RAG pour voir comment ne fournir à la fenêtre que l'utile.

Questions fréquentes

Quelle est la différence entre un token et un mot ?
Un token est un fragment de texte, souvent un bout de mot, pas un mot entier. En anglais, un token vaut en gros 4 caractères, soit environ les trois quarts d'un mot, mais c'est une approximation. En français l'ordre varie : nos mots étant plus longs et plus découpés, un même texte pèse souvent un peu plus de tokens. Le modèle lit et génère toujours en tokens, jamais en mots.
Pourquoi l'IA oublie le début d'une longue conversation ?
Parce que la context window, sa mémoire de travail, a une taille finie mesurée en tokens. Quand un échange ou un document dépasse cette taille, le contenu le plus ancien sort de la fenêtre. Ce qui en sort n'existe plus pour le modèle : il ne peut ni le voir ni aller le rechercher. Ce n'est pas un choix de sa part, juste une information qui n'est plus disponible.
La context window, ça coûte plus cher si elle est grande ?
Ce n'est pas la taille maximale de la fenêtre qui coûte, mais le nombre de tokens que tu y mets réellement. La facture est proportionnelle aux tokens en entrée et en sortie. Renvoyer un long historique ou coller un gros document à chaque requête fait grimper le coût et le temps de réponse, même si la fenêtre disponible est large.
Comment éviter que l'IA perde le fil sur un long document ?
Ne fournis que le passage pertinent plutôt que le document entier, et relance une conversation neuve avec un résumé quand l'échange s'éternise. Pour automatiser ça, le RAG est l'outil adapté : il stocke les documents à part et n'injecte dans la context window que les extraits utiles à ta question, ce qui évite de saturer la fenêtre et de payer pour du contexte inutile.
Est-ce que les grandes context windows règlent le problème de l'oubli ?
Elles le repoussent sans le supprimer. Une fenêtre plus large laisse tenir plus de contenu, mais elle reste finie et aucune n'est infinie. De plus, noyer le modèle sous beaucoup de texte peu pertinent dilue ce qui compte vraiment. Un contexte ciblé donne souvent de meilleures réponses qu'un contexte énorme et mal trié.

Dans le guide

Les bases de l'IA générative

Comment marche un LLM, pourquoi il invente, ce que coûte sa mémoire, et comment lui parler pour obtenir de bonnes réponses.

Termes du glossaire