Evaluateurs multi-tours : Qualité et recommandations dans Copilot

Introduction

Évaluer la performance des agents IA dans des interactions multi-tours est crucial pour garantir une qualité exceptionnelle. Contrairement aux métriques à tour unique, qui évaluent des réponses individuelles sur des critères comme la pertinence ou le ton, les sessions multi-tours nécessitent une approche plus holistique. Microsoft Foundry établit des normes rigoureuses pour valider et calibrer ces évaluateurs, assurant leur fiabilité et leur pertinence dans des scénarios complexes comme ceux gérés par Microsoft Copilot.

Comprendre les évaluateurs multi-tours

Les évaluateurs multi-tours ont été conçus pour analyser des sessions entières, prenant en compte des éléments tels que :

La capacité de l’agent à accomplir une tâche complète (Task Completion)
La satisfaction globale de l'utilisateur (CSAT)
La cohérence conversationnelle entre les tours (Conversation Coherence)
L’appui des affirmations de l’agent sur des faits vérifiés (Groundedness)

Les types d’évaluateurs disponibles

Le choix du type d’évaluateur approprié est essentiel. Voici une comparaison des différentes familles d’évaluateurs :

Famille d'évaluateurs	Ce qu'ils évaluent	Unités d'analyse
Tour unique	Une paire (entrée/sortie) sur une grille fixe	Un tour
Multi-tours	Une session entière	Une conversation
Adaptatif	Une session complète avec un rubric généré pour le groupe	Une conversation

Bon à savoir

Les approches multi-tours se concentrent sur l'évaluation des propriétés au niveau de la session, garantissant une analyse complète au lieu de se limiter à des réponses isolées.

Méthodologie d’évaluation des évaluateurs

Dans le cadre de Microsoft Foundry, la fiabilité et la validité des évaluateurs multi-tours sont analysées à travers :

Datasets de référence : Des jeux de données spécifiques sont sélectionnés pour isoler chaque propriété.
Tests multi-juges : Des modèles de jugement variés sont utilisés pour examiner à la fois leur précision et leur cohérence.
Metrics clé : Les axes de mesure incluent la validité, la fiabilité et la robustesse.

Les résultats de l’étude

L'évaluation globale présente les points suivants :

Task Completion : Largement fiable avec peu de variabilité entre juges, adaptée aux scores de session.
CSAT : Extrêmement solide, particulièrement avec des juges avancés comme GPT-5.5 et Claude Opus 4.7.
Groundedness : Plus difficile à stabiliser; recommandé comme signal de triage plutôt qu’un seuil fixe.
Conversation Coherence : Fiable, bien que certains juges plus petits montrent des lacunes dans les cas incohérents.

Points critiques pour la mise en œuvre

Choisir le bon évaluateur

Adaptez l'évaluateur à la propriété que vous souhaitez mesurer. Les évaluateurs à tour unique ne sont pas adaptés pour évaluer les sessions complètes.

Utiliser des juges fiables

Préférez des modèles avancés comme GPT-5.5 pour des propriétés critiques comme la vérification des faits. Recalibrez les petits juges si vous devez les utiliser.

Tester sur des domaines variés

Effectuez des essais sur des corpus divers pour éviter des conclusions limitées aux benchmarks spécifiques. Cela assure la généralisation des résultats.

Combiner plusieurs juges

Privilégiez des évaluations croisées multi-juges pour minimiser les biais et équilibrer les performances.

Recommandations pratiques

Pour garantir des résultats optimaux, voici quelques conseils essentiels :

Calibrez les seuils de décision selon vos données spécifiques.
Évitez les petits juges pour l'évaluation de la Groundedness, sauf comme indicateurs de tendance.
Mesurez la qualité des évaluateurs eux-mêmes afin d’assurer l’intégrité des scores générés.
Utilisez des évaluateurs multi-tours pour les tests de session et les régulations avant la mise en production.

Important

Les benchmarks publics ne fournissent souvent que des étiquettes de résultat, et pas celles du processus. Soyez conscient des limitations des scores basés sur les LLM en absence d’oracles déterministes.

Conclusion

Les évaluateurs multi-tours sont essentiels pour naviguer dans les complexités des interactions conversationnelles approfondies. Grâce à des tests rigoureux et à une méthodologie solide, Microsoft Foundry propose des outils permettant aux développeurs de maîtriser ces dimensions et de créer des expériences IA robustes et fiables.

Ressources supplémentaires

Astuce

Exploitez les informations des évaluateurs multi-tours pour améliorer continuellement la performance de vos agents, en particulier pendant les phases critiques de développement.

Introduction