Introduction
Évaluer la performance des agents IA dans des interactions multi-tours est crucial pour garantir une qualité exceptionnelle. Contrairement aux métriques à tour unique, qui évaluent des réponses individuelles sur des critères comme la pertinence ou le ton, les sessions multi-tours nécessitent une approche plus holistique. Microsoft Foundry établit des normes rigoureuses pour valider et calibrer ces évaluateurs, assurant leur fiabilité et leur pertinence dans des scénarios complexes comme ceux gérés par Microsoft Copilot.
Comprendre les évaluateurs multi-tours
Les évaluateurs multi-tours ont été conçus pour analyser des sessions entières, prenant en compte des éléments tels que :
- La capacité de l’agent à accomplir une tâche complète (Task Completion)
- La satisfaction globale de l'utilisateur (CSAT)
- La cohérence conversationnelle entre les tours (Conversation Coherence)
- L’appui des affirmations de l’agent sur des faits vérifiés (Groundedness)
Les types d’évaluateurs disponibles
Le choix du type d’évaluateur approprié est essentiel. Voici une comparaison des différentes familles d’évaluateurs :
| Famille d'évaluateurs | Ce qu'ils évaluent | Unités d'analyse |
|---|---|---|
| Tour unique | Une paire (entrée/sortie) sur une grille fixe | Un tour |
| Multi-tours | Une session entière | Une conversation |
| Adaptatif | Une session complète avec un rubric généré pour le groupe | Une conversation |
Bon à savoir
Les approches multi-tours se concentrent sur l'évaluation des propriétés au niveau de la session, garantissant une analyse complète au lieu de se limiter à des réponses isolées.
Méthodologie d’évaluation des évaluateurs
Dans le cadre de Microsoft Foundry, la fiabilité et la validité des évaluateurs multi-tours sont analysées à travers :
- Datasets de référence : Des jeux de données spécifiques sont sélectionnés pour isoler chaque propriété.
- Tests multi-juges : Des modèles de jugement variés sont utilisés pour examiner à la fois leur précision et leur cohérence.
- Metrics clé : Les axes de mesure incluent la validité, la fiabilité et la robustesse.
Les résultats de l’étude
L'évaluation globale présente les points suivants :
- Task Completion : Largement fiable avec peu de variabilité entre juges, adaptée aux scores de session.
- CSAT : Extrêmement solide, particulièrement avec des juges avancés comme GPT-5.5 et Claude Opus 4.7.
- Groundedness : Plus difficile à stabiliser; recommandé comme signal de triage plutôt qu’un seuil fixe.
- Conversation Coherence : Fiable, bien que certains juges plus petits montrent des lacunes dans les cas incohérents.
[TABLE] Évaluateur | Propriété | Sortie Task Completion | L'agent a-t-il complètement accompli la tâche de l’utilisateur ? | Binaire (réussi / échoué) + détails CSAT | Niveau de satisfaction de l’utilisateur | Échelle de Likert 1-5 Groundedness | Affirmations soutenues par des sources | Échelle de Likert 1-5 Conversation Coherence | Progression fluide entre les tours | Échelle de Likert 1-5 [/TABLE]
Points critiques pour la mise en œuvre
Choisir le bon évaluateur
Adaptez l'évaluateur à la propriété que vous souhaitez mesurer. Les évaluateurs à tour unique ne sont pas adaptés pour évaluer les sessions complètes.
Utiliser des juges fiables
Préférez des modèles avancés comme GPT-5.5 pour des propriétés critiques comme la vérification des faits. Recalibrez les petits juges si vous devez les utiliser.
Tester sur des domaines variés
Effectuez des essais sur des corpus divers pour éviter des conclusions limitées aux benchmarks spécifiques. Cela assure la généralisation des résultats.
Combiner plusieurs juges
Privilégiez des évaluations croisées multi-juges pour minimiser les biais et équilibrer les performances.
Recommandations pratiques
Pour garantir des résultats optimaux, voici quelques conseils essentiels :
- Calibrez les seuils de décision selon vos données spécifiques.
- Évitez les petits juges pour l'évaluation de la Groundedness, sauf comme indicateurs de tendance.
- Mesurez la qualité des évaluateurs eux-mêmes afin d’assurer l’intégrité des scores générés.
- Utilisez des évaluateurs multi-tours pour les tests de session et les régulations avant la mise en production.
Important
Les benchmarks publics ne fournissent souvent que des étiquettes de résultat, et pas celles du processus. Soyez conscient des limitations des scores basés sur les LLM en absence d’oracles déterministes.
Conclusion
Les évaluateurs multi-tours sont essentiels pour naviguer dans les complexités des interactions conversationnelles approfondies. Grâce à des tests rigoureux et à une méthodologie solide, Microsoft Foundry propose des outils permettant aux développeurs de maîtriser ces dimensions et de créer des expériences IA robustes et fiables.
Ressources supplémentaires
- Commencez à construire avec Microsoft Foundry
- Session Build BRK252
- Découvrez la documentation
- Rejoignez la communauté
Astuce
Exploitez les informations des évaluateurs multi-tours pour améliorer continuellement la performance de vos agents, en particulier pendant les phases critiques de développement.



