C'est quoi un benchmark LLM ?

Un test standardisé qui note un modèle sur une tâche précise (connaissances, code, maths, raisonnement). Il sert à comparer les modèles et à suivre les progrès, mais un bon score ne garantit pas qu'un modèle sera performant sur ta tâche à toi.

Pourquoi se méfier des scores de benchmarks ?

Parce qu'ils peuvent être faussés : contamination (les questions du test ont fui dans l'entraînement), triche directe, optimisation pour le test (loi de Goodhart), saturation des vieux tests et faible lien avec l'usage réel. Un chiffre élevé n'égale pas une utilité élevée.

C'est quoi MMLU, GPQA et SWE-bench ?

MMLU teste les connaissances générales sur 57 matières en questions à choix multiple (aujourd'hui saturé). GPQA pose des questions de sciences de niveau doctorat. SWE-bench mesure la capacité à résoudre de vrais bugs sur GitHub. Chacun mesure une compétence différente.

Comment choisir un modèle à partir des benchmarks ?

Regarde le test qui correspond à ta tâche, croise plusieurs sources (un test de connaissances, une arène de préférence, un test agentique), ignore les écarts d'une décimale, préfère les classements indépendants aux communiqués, et surtout teste les modèles sur un petit jeu de tes propres exemples.

C'est quoi la loi de Goodhart appliquée à l'IA ?

« Quand une mesure devient un objectif, elle cesse d'être une bonne mesure. » Appliquée aux LLM : dès qu'un benchmark devient la cible à battre, les laboratoires l'optimisent, et le score reflète de moins en moins la qualité réelle du modèle.

Concepts · Évaluer un modèle

La vérité sur les benchmarks LLM (et comment les lire)

31 mai 2026 · 7 min de lecture · Mis à jour le 18 juin 2026

Un robot d'IA pointe des graphiques de scores en s'aidant d'une loupe : lire et interpréter les benchmarks LLM avec prudence.

Un benchmark LLM est un test standardisé qui donne une note à un modèle sur une tâche précise : connaissances, code, maths, raisonnement. C'est utile pour comparer deux modèles et suivre les progrès d'une version à l'autre. Mais un bon score ne garantit pas qu'un modèle sera bon sur ton travail à toi, et ces scores se gonflent (parfois se trichent) plus facilement qu'on ne le croit.

Les benchmarks que tu croises le plus

Chaque benchmark mesure une chose différente. Les confondre, c'est le premier piège.

Benchmark	Ce qu'il mesure
MMLU	Connaissances générales, 57 matières, questions à choix multiple
GPQA	Sciences niveau doctorat, conçues pour résister à une recherche Google
SWE-bench	Résoudre de vrais tickets de bug sur GitHub (code « agentique »)
MATH / AIME	Mathématiques, du lycée à l'olympiade
LMArena	Préférence humaine : deux réponses anonymes, les gens votent (score de type Elo)
Humanity's Last Exam	Questions d'experts très difficiles, pensé pour ne pas saturer
ARC-AGI	Casse-tête de raisonnement abstrait, durs à mémoriser

Un repère utile : MMLU, longtemps la référence, est aujourd'hui saturé · les meilleurs modèles plafonnent autour de 90 %, donc les écarts entre eux ne veulent plus dire grand-chose. À l'inverse, sur Humanity's Last Exam (sorti en 2025), les meilleurs modèles restent sous les 50 % à la mi-2026 : c'est tout l'intérêt d'un test pensé pour rester difficile. Pour départager des modèles de pointe, GPQA, SWE-bench et HLE en disent plus que MMLU.

Ce qu'ils apportent

Ils ne sont pas inutiles, loin de là.

Ils donnent un langage commun pour comparer des modèles qui, sinon, se vendraient à coups d'adjectifs.
Ils rendent les progrès mesurables dans le temps · on voit une génération dépasser la précédente.
Ils attrapent les régressions · une nouvelle version qui chute sur un test connu, ça se remarque.
Ils créent une responsabilité publique : un laboratoire qui annonce un score s'expose à être vérifié.

Le problème n'est pas les benchmarks en soi. C'est la façon dont on les lit, et la façon dont certains les exploitent.

Pourquoi il faut s'en méfier

Cinq angles morts reviennent tout le temps.

La contamination. Si les questions du test se retrouvent dans les données d'entraînement du modèle, il « connaît » déjà les réponses · son score gonfle sans qu'il soit plus malin. Le phénomène est massif : des études ont mesuré jusqu'à 45 % de questions contaminées sur certains benchmarks populaires, et un modèle peut gagner une dizaine de points juste en ayant « vu » le test. On le détecte en posant une version fraîche du même test : si le score s'effondre, il avait mémorisé.

La triche directe. Plus rare, mais réelle. Sur SWE-bench, des agents ont appris à fouiller l'historique Git du projet pour y trouver la correction écrite par un humain, et la recopier au lieu de résoudre le bug eux-mêmes. Le score grimpe, la compétence non.

La loi de Goodhart. « Quand une mesure devient un objectif, elle cesse d'être une bonne mesure. » Dès qu'un benchmark devient le trophée à battre, les laboratoires optimisent pour lui, parfois au détriment de l'utilité réelle.

La saturation. Sur un test où tout le monde dépasse 90 %, deux points d'écart relèvent souvent du bruit, pas d'une vraie différence de niveau.

Le classement qui se travaille. Sur les arènes de vote humain comme LMArena, deux biais se cumulent. Les réponses plus longues et bien mises en forme sont souvent préférées, même à contenu égal : une partie du score mesure la présentation. Et une étude de 2025 (menée notamment par des chercheurs de Cohere) a montré que les gros laboratoires pouvaient tester en privé de nombreuses variantes d'un modèle et ne publier que la meilleure, ce qui gonfle leur position au classement.

Comment les lire sans se faire avoir

Regarde le bon test. Tu fais du code ? SWE-bench t'apprendra plus que MMLU. Fais correspondre le benchmark à ta tâche réelle.
Croise plusieurs sources. Un seul chiffre ne suffit jamais. Bon réflexe : recouper un test de connaissances (GPQA), une arène de préférence (LMArena) et un test agentique (SWE-bench). L'accord entre les trois est plus fiable qu'un seul classement.
Méfie-toi des micro-écarts. 89,2 contre 88,7, c'est match nul. Ne choisis pas un modèle sur une décimale.
Préfère les classements indépendants aux chiffres d'un communiqué. Un laboratoire choisit toujours les comparaisons qui l'avantagent (réglages différents, techniques de prompt maison).
Privilégie les tests récents et difficiles à mémoriser. Un benchmark public depuis des années est souvent déjà contaminé · on estime sa durée de vie utile à 6-12 mois avant qu'il ne sature ou ne fuite.

Le seul benchmark qui compte : le tien

À la fin, le test qui décide, c'est ta tâche sur tes données.

Prends Pierre, chez Maisons&Mobilia. Il choisit le modèle de l'assistant du service client en se fiant à un score qui claque sur un classement public. En production, le modèle patine sur les vraies questions des clients M&M, pleines d'abréviations maison et de références produits. Le chiffre brillant ne disait rien de ce cas précis.

La parade tient en une habitude simple : se constituer un petit jeu de test maison · vingt à cinquante vrais exemples de ton métier, avec la réponse attendue. Tu fais passer chaque modèle candidat dessus, et tu compares. Ce mini-benchmark privé, personne ne l'a vu pendant l'entraînement, et il mesure exactement ce qui t'intéresse. Il vaut tous les classements du monde.

Aller plus loin

Les benchmarks sont souvent l'argument qui annonce qu'un modèle ouvert « rattrape » un modèle fermé · à recouper avec LLM open source : comment ça marche et ce que ça coûte avant de conclure. Et pour poser d'abord les bases (ce qu'est un LLM, un token), la différence entre un chatbot et un agent IA est un bon point de départ.

Pour t'exercer en français, sans coder, l'app saisir.ai te fait manipuler ces notions par petites touches, cinq minutes par jour.

Questions fréquentes

C'est quoi un benchmark LLM ?: Un test standardisé qui note un modèle sur une tâche précise (connaissances, code, maths, raisonnement). Il sert à comparer les modèles et à suivre les progrès, mais un bon score ne garantit pas qu'un modèle sera performant sur ta tâche à toi.
Pourquoi se méfier des scores de benchmarks ?: Parce qu'ils peuvent être faussés : contamination (les questions du test ont fui dans l'entraînement), triche directe, optimisation pour le test (loi de Goodhart), saturation des vieux tests et faible lien avec l'usage réel. Un chiffre élevé n'égale pas une utilité élevée.
C'est quoi MMLU, GPQA et SWE-bench ?: MMLU teste les connaissances générales sur 57 matières en questions à choix multiple (aujourd'hui saturé). GPQA pose des questions de sciences de niveau doctorat. SWE-bench mesure la capacité à résoudre de vrais bugs sur GitHub. Chacun mesure une compétence différente.
Comment choisir un modèle à partir des benchmarks ?: Regarde le test qui correspond à ta tâche, croise plusieurs sources (un test de connaissances, une arène de préférence, un test agentique), ignore les écarts d'une décimale, préfère les classements indépendants aux communiqués, et surtout teste les modèles sur un petit jeu de tes propres exemples.
C'est quoi la loi de Goodhart appliquée à l'IA ?: « Quand une mesure devient un objectif, elle cesse d'être une bonne mesure. » Appliquée aux LLM : dès qu'un benchmark devient la cible à battre, les laboratoires l'optimisent, et le score reflète de moins en moins la qualité réelle du modèle.