Glossaire

Inférence, c'est quoi ?

Le LLM en train de répondre à ta requête : il lit ton prompt et génère la sortie token par token. À distinguer de l'entraînement, qui a fabriqué le modèle une seule fois.

Mis à jour le 23 mai 2026

Ce que c'est

Deux moments très différents dans la vie d'un modèle. L'entraînement, coûteux et fait une seule fois, fige ce qu'il sait (ses poids). L'inférence, c'est chaque fois que tu l'utilises ensuite : il lit ton prompt et produit la réponse token par token, sans rien réapprendre.

Pourquoi c'est important

C'est la partie que tu paies à répétition et que tu attends à l'écran. Chaque appel en production est une inférence : c'est elle qui fait ta facture récurrente (au token, entrée + sortie) et ta latence. Réduire le contexte ou prendre un modèle plus petit, c'est agir sur le coût d'inférence, pas sur l'entraînement.

Exemples concrets

  • Tu colles un avis client et demandes un résumé : cet aller-retour est une inférence, facturée en tokens d'entrée puis de sortie.
  • L'assistant de Maisons&Mobilia répond 5 000 fois par jour : 5 000 inférences, donc 5 000 lignes sur la facture. L'entraînement du modèle, lui, a eu lieu une fois, ailleurs.

Approfondir

brain · anatomie d'un LLM

Un module saisir.ai qui fait manipuler ce concept, en 5 min, sans coder.

Termes liés

Questions fréquentes

Inférence, c'est quoi ?
Deux moments très différents dans la vie d'un modèle. L'entraînement, coûteux et fait une seule fois, fige ce qu'il sait (ses poids). L'inférence, c'est chaque fois que tu l'utilises ensuite : il lit ton prompt et produit la réponse token par token, sans rien réapprendre.
À quoi ça sert ?
C'est la partie que tu paies à répétition et que tu attends à l'écran. Chaque appel en production est une inférence : c'est elle qui fait ta facture récurrente (au token, entrée + sortie) et ta latence. Réduire le contexte ou prendre un modèle plus petit, c'est agir sur le coût d'inférence, pas sur l'entraînement.
Un exemple concret ?
Tu colles un avis client et demandes un résumé : cet aller-retour est une inférence, facturée en tokens d'entrée puis de sortie.