Question 1

Inférence, c'est quoi ?

Accepted Answer

Deux moments très différents dans la vie d'un modèle. L'entraînement, coûteux et fait une seule fois, fige ce qu'il sait (ses poids). L'inférence, c'est chaque fois que tu l'utilises ensuite : il lit ton prompt et produit la réponse token par token, sans rien réapprendre.

Question 2

À quoi ça sert ?

Accepted Answer

C'est la partie que tu paies à répétition et que tu attends à l'écran. Chaque appel en production est une inférence : c'est elle qui fait ta facture récurrente (au token, entrée + sortie) et ta latence. Réduire le contexte ou prendre un modèle plus petit, c'est agir sur le coût d'inférence, pas sur l'entraînement.

Question 3

Un exemple concret ?

Accepted Answer

Tu colles un avis client et demandes un résumé : cet aller-retour est une inférence, facturée en tokens d'entrée puis de sortie.

Inférence, c'est quoi ?

Ce que c'est

Pourquoi c'est important

Exemples concrets

Termes liés

Questions fréquentes