IAMinerva
AccueilBlogA propos
m3Nouveautes M365coMicrosoft CopilotteMicrosoft TeamsshSharePoint & OneDriveinIntune & SecuriteexExchange & OutlookpoPower PlatformazAzure & Entra IDtuTutoriels & GuidesevEvenements & ConferencesseSecuritewiWindows
IAMinerva

Blog professionnel dedie a l'ecosysteme Microsoft 365.

Liens rapides

AccueilBlogA proposNewsletter

Restez informe

Recevez les dernieres actualites Microsoft 365 directement dans votre boite mail.

© 2026 IAMinerva. Tous droits reserves.

Construit avecNext.js&Tailwind
Réseau de connexions représentant des utilisateurs avec des éléments graphiques dorés.
BlogMicrosoft CopilotEvaluateurs multi-tours : Qualité et recommandations dans Copilot
Microsoft Copilot#copilot#evaluer les agents IA#Microsoft Foundry

Evaluateurs multi-tours : Qualité et recommandations dans Copilot

Découvrez comment les évaluateurs multi-tours de Microsoft Foundry améliorent les interactions complexes des agents IA grâce à une analyse approfondie.

Houssem MAKHLOUF
28 juin 2026
4 min de lecture

TL;DR par Minerva

généré par IA

Découvrez comment les évaluateurs multi-tours de Microsoft Foundry améliorent les interactions complexes des agents IA grâce à une analyse approfondie.

Introduction

Évaluer la performance des agents IA dans des interactions multi-tours est crucial pour garantir une qualité exceptionnelle. Contrairement aux métriques à tour unique, qui évaluent des réponses individuelles sur des critères comme la pertinence ou le ton, les sessions multi-tours nécessitent une approche plus holistique. Microsoft Foundry établit des normes rigoureuses pour valider et calibrer ces évaluateurs, assurant leur fiabilité et leur pertinence dans des scénarios complexes comme ceux gérés par Microsoft Copilot.

Comprendre les évaluateurs multi-tours

Les évaluateurs multi-tours ont été conçus pour analyser des sessions entières, prenant en compte des éléments tels que :

  • La capacité de l’agent à accomplir une tâche complète (Task Completion)
  • La satisfaction globale de l'utilisateur (CSAT)
  • La cohérence conversationnelle entre les tours (Conversation Coherence)
  • L’appui des affirmations de l’agent sur des faits vérifiés (Groundedness)

Les types d’évaluateurs disponibles

Le choix du type d’évaluateur approprié est essentiel. Voici une comparaison des différentes familles d’évaluateurs :

Famille d'évaluateursCe qu'ils évaluentUnités d'analyse
Tour uniqueUne paire (entrée/sortie) sur une grille fixeUn tour
Multi-toursUne session entièreUne conversation
AdaptatifUne session complète avec un rubric généré pour le groupeUne conversation
i

Bon à savoir

Les approches multi-tours se concentrent sur l'évaluation des propriétés au niveau de la session, garantissant une analyse complète au lieu de se limiter à des réponses isolées.

Méthodologie d’évaluation des évaluateurs

Dans le cadre de Microsoft Foundry, la fiabilité et la validité des évaluateurs multi-tours sont analysées à travers :

  • Datasets de référence : Des jeux de données spécifiques sont sélectionnés pour isoler chaque propriété.
  • Tests multi-juges : Des modèles de jugement variés sont utilisés pour examiner à la fois leur précision et leur cohérence.
  • Metrics clé : Les axes de mesure incluent la validité, la fiabilité et la robustesse.

Les résultats de l’étude

L'évaluation globale présente les points suivants :

  • Task Completion : Largement fiable avec peu de variabilité entre juges, adaptée aux scores de session.
  • CSAT : Extrêmement solide, particulièrement avec des juges avancés comme GPT-5.5 et Claude Opus 4.7.
  • Groundedness : Plus difficile à stabiliser; recommandé comme signal de triage plutôt qu’un seuil fixe.
  • Conversation Coherence : Fiable, bien que certains juges plus petits montrent des lacunes dans les cas incohérents.

[TABLE] Évaluateur | Propriété | Sortie Task Completion | L'agent a-t-il complètement accompli la tâche de l’utilisateur ? | Binaire (réussi / échoué) + détails CSAT | Niveau de satisfaction de l’utilisateur | Échelle de Likert 1-5 Groundedness | Affirmations soutenues par des sources | Échelle de Likert 1-5 Conversation Coherence | Progression fluide entre les tours | Échelle de Likert 1-5 [/TABLE]

Points critiques pour la mise en œuvre

1

Choisir le bon évaluateur

Adaptez l'évaluateur à la propriété que vous souhaitez mesurer. Les évaluateurs à tour unique ne sont pas adaptés pour évaluer les sessions complètes.

2

Utiliser des juges fiables

Préférez des modèles avancés comme GPT-5.5 pour des propriétés critiques comme la vérification des faits. Recalibrez les petits juges si vous devez les utiliser.

3

Tester sur des domaines variés

Effectuez des essais sur des corpus divers pour éviter des conclusions limitées aux benchmarks spécifiques. Cela assure la généralisation des résultats.

4

Combiner plusieurs juges

Privilégiez des évaluations croisées multi-juges pour minimiser les biais et équilibrer les performances.

Recommandations pratiques

Pour garantir des résultats optimaux, voici quelques conseils essentiels :

  • Calibrez les seuils de décision selon vos données spécifiques.
  • Évitez les petits juges pour l'évaluation de la Groundedness, sauf comme indicateurs de tendance.
  • Mesurez la qualité des évaluateurs eux-mêmes afin d’assurer l’intégrité des scores générés.
  • Utilisez des évaluateurs multi-tours pour les tests de session et les régulations avant la mise en production.
×

Important

Les benchmarks publics ne fournissent souvent que des étiquettes de résultat, et pas celles du processus. Soyez conscient des limitations des scores basés sur les LLM en absence d’oracles déterministes.

Conclusion

Les évaluateurs multi-tours sont essentiels pour naviguer dans les complexités des interactions conversationnelles approfondies. Grâce à des tests rigoureux et à une méthodologie solide, Microsoft Foundry propose des outils permettant aux développeurs de maîtriser ces dimensions et de créer des expériences IA robustes et fiables.

Ressources supplémentaires

  • Commencez à construire avec Microsoft Foundry
  • Session Build BRK252
  • Découvrez la documentation
  • Rejoignez la communauté
✦

Astuce

Exploitez les informations des évaluateurs multi-tours pour améliorer continuellement la performance de vos agents, en particulier pendant les phases critiques de développement.

Partager:
HM

Houssem MAKHLOUF

Microsoft 365 enthusiast & IT professional.

Article précédent

Accélérer le processus de correction : Priorités des Five Eyes

27 juin 2026
Article suivant

Decouvrez GPT‑5.6 Sol : Le modele d'IA de prochaine generation

28 juin 2026

Articles similaires

Paysages montagneux avec des formes géométriques dorées sur un fond sombre.copilot

Certifications Microsoft Cloud, AI et Sécurité : Anticipez 2026

Découvrez les nouvelles certifications Microsoft pour le cloud, l'IA et la sécurité. Anticipez ces évolutions pour rester compétitif en 2026.

29 juin 20264 min
Engrenage doré avec des lignes fluides lumineuses sur fond sombre.copilot

Comprendre et utiliser les Skills Claude pour l'automatisation

Apprenez à utiliser les Skills Claude pour automatiser vos tâches professionnelles grâce à une IA flexible et des connecteurs personnalisés.

29 juin 20265 min
Engrenage doré sur fond sombre avec des lignes abstraites.copilot

Copilot : Automatisation et routines avec Microsoft 365

Apprenez à configurer des routines automatisées avec Microsoft Copilot pour améliorer la productivité et sécuriser votre environnement M365 et Azure.

29 juin 20265 min