Pratique · module

Le tribunal des agents

Vibe check, LLM-as-judge, golden dataset, régression silencieuse.

5 niveaux pour comprendre comment évaluer un agent en production : pourquoi le vibe check ment, pourquoi assert.equal casse sur du naturel, comment fonctionne un LLM-juge (et ses biais), comment une régression peut se cacher derrière une moyenne qui monte.

Au programme

  1. 01La démo n'est pas l'éval
  2. 02Pourquoi assert.equal casse
  3. 03Noter le sens, pas les mots
  4. 04Le LLM-juge
  5. 05Le pipeline complet
  6. 06+12 %, on déploie ?

Ce que tu vas travailler

  • Évaluation & qualité

Commence ce module

5 min, en français, sans coder. Des modules courts plus un jeu quotidien pour que ça reste.

Questions fréquentes

« Le tribunal des agents », c'est quoi ?
5 niveaux pour comprendre comment évaluer un agent en production : pourquoi le vibe check ment, pourquoi assert.equal casse sur du naturel, comment fonctionne un LLM-juge (et ses biais), comment une régression peut se cacher derrière une moyenne qui monte.
Combien de temps ça prend ?
Environ 18 minutes, en 6 niveaux courts. Tu gagnes 30 XP en le terminant.
Faut-il savoir coder ?
Non. Ce module se fait sans code, en français, en manipulant des exemples concrets.
Qu'est-ce que tu vas y travailler ?
Évaluation & qualité.