Introduction
Les architectures cloud native ont revolutionne la gestion des environnements informatiques modernes, et leur integration avec l'IA agentique est un enjeu crucial. Cet article explore les fondements, les outils et les bonnes pratiques pour construire des systemes multi-agents sur Kubernetes, comme illustre par le projet en cours chez Orange Innovation.

Pourquoi choisir le cloud native pour l'IA agentique ?
Les systemes d'IA agentique partagent de nombreux defis operationnels avec les architectures cloud native : gestion des identites, politiques de sécurité, observabilité avancée, et GitOps. Ces solutions permettent de structurer les agents comme des workloads Kubernetes distincts, garantissant scalabilité, flexibilité et sécurité accrues.
Bon à savoir
Les projets sous gouvernance CNCF et Linux Foundation, comme cert-manager et Falco, garantissent une adoption fiable dans des environnements regulés.
Points essentiels pour construire une plateforme agentique
1. Chaque agent est un workload Kubernetes indépendant
Pour chaque agent, nous utilisons un Deployment Kubernetes avec des limites de ressources, une identité propre, et des règles de redémarrage distinctes. Cette approche permet :
- Des mises à jour progressives (canary rollouts)
- Une isolation par namespace
- Une gestion efficace des erreurs (ex., timeout d’un API).
Attention
Evitez d’intégrer tous les agents dans un seul processus : cela compromet la résilience du système en cas de panne.
2. Trafic inter-agent : utilisez mTLS, pas un service mesh
Les messages inter-agents sont encapsulés avec le protocole A2A, transportant des regles de detection et des actions sensibles. Le choix de cert-manager et CiliumNetworkPolicy simplifie la sécurisation par mTLS, sans la complexité d’un service mesh.
1kubectl apply -f cert-manager-configuration.yamlCette configuration garantit :
- Une authentification basée sur des identités d’agent.
- Une protection granulée des communications réseau.
3. Contraintes de sécurité : adoptez une approche policy-as-code
Au lieu de dépendre des prompts des LLM, structurez les contraintes de sécurité dans des politiques versionnées. Par exemple, nous avons choisi :
- Règles OPA pour la validation des actions.
- Reconnaissance des escalades via Kyverno.
Ces contraintes sont codifiées, versionnées et testées, offrant une transparence et une fiabilité accrues.
4. Observabilité améliorée grâce au trace_id
Chaque message A2A inclut un trace_id unique, central pour :
- Retracer l’intégralité des décisions.
- Monitorer la performance des agents via Prometheus et Cilium Hubble.
Les logs structurés permettent de remonter des anomalies en quelques minutes et non en plusieurs heures.
5. Modèle d'anomalie classique avant l'activation des LLM
Un Isolation Forest filtre les evenements avant qu’ils soient envoyés aux agents LLM. Cela optimise les coûts liés à l’utilisation des LLM tout en garantissant une rapidité d’identification des anomalies significatives :
1from sklearn.ensemble import IsolationForest2model = IsolationForest(n_estimators=100)Le seuil d’anomalie est ajustable dynamiquement via les politiques des reviewers.
Maintenir l’homme dans la boucle
Les decisions critiques suivent trois etats :
- Auto-execute : décision appliquée automatiquement.
- Auto-reject : décision bloquée automatiquement.
- Escalade humaine : envoyée à un analyste SOC via Mattermost.
Ces escalades ne sont pas des erreurs mais des cas prévisionnels. Chaque processus est soutenu par des artefacts versionnés comme des politiques GitOps, renforçant la collaboration entre les équipes.
Astuce
Consolidez vos artefacts dans un dépôt Git centralisé pour minimiser les surprises lors des escalades.
Comment organiser le travail entre les équipes
Une approche collaborative régulière est indispensable. Voici la répartition typique entre les équipes :
- Equipe SOC : responsable des politiques de sécurité et de détection.
- Equipe plateforme : gestion des clusters et pipelines GitOps.
- Equipe IA : maintenance des modèles et des interfaces agent.
Conclusion
Adopter une approche cloud native et sous gouvernance ouverte comme celle du CNCF est essentiel pour developper une IA agentique robuste et scalable. Les outils tels que Kubernetes, cert-manager, et Argo CD transforment cette complexité en un système maintenable. Si vous souhaitez approfondir, retrouvez les sessions KubeCon Slack ou contactez les experts du CNCF pour partager vos retours.
A propos de l'auteur
Willem Berroubache, Architecte en Chef Sécurité chez Orange Innovation, est spécialiste en sécurité cloud native et contributeur actif au CNCF.



