Pratique · module
Le tribunal des agents
Vibe check, LLM-as-judge, golden dataset, régression silencieuse.
5 niveaux pour comprendre comment évaluer un agent en production : pourquoi le vibe check ment, pourquoi assert.equal casse sur du naturel, comment fonctionne un LLM-juge (et ses biais), comment une régression peut se cacher derrière une moyenne qui monte.
- ~18 min
- 30 XP
- avancé
- sans coder
Au programme
- 01La démo n'est pas l'éval
- 02Pourquoi assert.equal casse
- 03Noter le sens, pas les mots
- 04Le LLM-juge
- 05Le pipeline complet
- 06+12 %, on déploie ?
Ce que tu vas travailler
- Évaluation & qualité
Commence ce module
5 min, en français, sans coder. Des modules courts plus un jeu quotidien pour que ça reste.
Questions fréquentes
- « Le tribunal des agents », c'est quoi ?
- 5 niveaux pour comprendre comment évaluer un agent en production : pourquoi le vibe check ment, pourquoi assert.equal casse sur du naturel, comment fonctionne un LLM-juge (et ses biais), comment une régression peut se cacher derrière une moyenne qui monte.
- Combien de temps ça prend ?
- Environ 18 minutes, en 6 niveaux courts. Tu gagnes 30 XP en le terminant.
- Faut-il savoir coder ?
- Non. Ce module se fait sans code, en français, en manipulant des exemples concrets.
- Qu'est-ce que tu vas y travailler ?
- Évaluation & qualité.