Glossaire

Golden dataset, c'est quoi ?

Ensemble de cas de référence (input + sortie attendue) qui sert de baromètre quand on modifie un prompt ou un modèle.

Mis à jour le 19 juin 2026

Ce que c'est

Un jeu de cas de référence (entrée + sortie attendue) que tu figes pour mesurer ton agent. À chaque changement de prompt ou de modèle, tu le rejoues et tu compares aux attendus.

Pourquoi c'est important

C'est ton baromètre objectif contre les régressions invisibles. Sans lui, tu navigues au vibe check ; avec lui, tu vois noir sur blanc si un changement améliore ou casse.

Exemples concrets

  • 50 questions clients avec la bonne réponse validée, rejouées à chaque évolution.
  • Un nouveau modèle « plus puissant » fait baisser ton score golden de 4 % : tu l'apprends avant tes clients.

Approfondir

judge · évaluation d'agents

Un module saisir.ai qui fait manipuler ce concept, en 5 min, sans coder.

Termes liés

Questions fréquentes

Golden dataset, c'est quoi ?
Un jeu de cas de référence (entrée + sortie attendue) que tu figes pour mesurer ton agent. À chaque changement de prompt ou de modèle, tu le rejoues et tu compares aux attendus.
À quoi ça sert ?
C'est ton baromètre objectif contre les régressions invisibles. Sans lui, tu navigues au vibe check ; avec lui, tu vois noir sur blanc si un changement améliore ou casse.
Un exemple concret ?
50 questions clients avec la bonne réponse validée, rejouées à chaque évolution.