
Les systèmes multi-agents séduisent parce qu'un seul modèle gère rarement à la fois planification, retrieval, exécution, vérification et gouvernance. Répartir le travail entre plusieurs agents peut améliorer spécialisation et débit.
Mais en production, la collaboration casse généralement pour une raison plus terre à terre. Le problème n'est d'abord pas un problème de raisonnement. C'est un problème d'état partagé : différents agents voient des contextes différents, écrivent sur les mêmes artefacts, héritent de permissions floues et laissent derrière eux une trace que personne ne sait reconstruire proprement.
Google Cloud et IBM définissent tous deux un système multi-agents comme plusieurs agents autonomes opérant dans un environnement partagé pour résoudre des problèmes ensemble (Google Cloud, IBM). C'est une bonne définition d'entrée, mais elle masque le plus dur : dès que l'environnement est partagé, la collaboration devient un problème de contexte, de frontières et de contrôle du changement, pas simplement de messagerie entre agents.
Le texte d'Anthropic sur effective context engineering for AI agents pousse dans la même direction. Le contexte est une ressource finie, et les systèmes deviennent plus fiables quand ils sélectionnent et assemblent ce contexte de manière intentionnelle plutôt que de tout entasser dans un seul prompt.
La collaboration multi-agents fonctionne lorsque le contexte partagé, le périmètre des permissions, le contrôle de mutation et la provenance sont traités comme des problèmes d'architecture de premier ordre.
Une définition utile est la suivante :
La collaboration multi-agents est la capacité de plusieurs agents à opérer sur un contexte métier partagé sans provoquer de dérive silencieuse, d'actions dangereuses ou de comportement impossible à reproduire.
Cela nécessite quelques primitives de collaboration.
| Primitive | Ce qu'elle contrôle | Ce qui casse sans elle |
|---|---|---|
| Contexte partagé | Ce que tous les agents peuvent considérer comme vrai | Vérités partielles, réponses périmées, décisions contradictoires |
| Coordination des tâches | Qui fait quoi et dans quel ordre | Travail dupliqué, confusion des rôles, handoffs instables |
| Permissions scopées | Quels outils, chemins et actions chaque agent peut utiliser | Débordement de périmètre, exposition accidentelle, écritures dangereuses |
| Contrôle de mutation | Comment les artefacts partagés sont édités, fusionnés et restaurés | Écrasements silencieux, prompts cassés, dérive de policy |
| Provenance et audit | Comment expliquer après coup ce qui s'est passé | Aucune responsabilité claire, réponse lente aux incidents |
La plupart des systèmes qui semblent “étrangement peu fiables” n'ont jamais clarifié une ou plusieurs de ces primitives.
Un agent utilise une policy fraîche provenant du dépôt officiel. Un autre s'appuie sur un ancien résumé dans un scratchpad. Un troisième lit une conclusion Slack qui a ensuite été annulée.
Chaque agent peut se comporter “correctement” au regard de sa propre entrée, tout en laissant le système global dans le faux.
C'est exactement pourquoi l'engineering du contexte compte. Le problème n'est pas le manque de tokens. Le problème est d'apporter le bon contexte, au bon moment, depuis la bonne source.
C'est le mode de panne que les équipes sous-estiment le plus.
Si plusieurs agents modifient prompts, runbooks, fichiers de policy, listes d'exceptions, configurations d'outils ou artefacts de memory, la collaboration n'est plus seulement un problème d'orchestration. C'est un problème de coordination d'écriture.
Git aide lorsque des humains résolvent les conflits. Des dossiers partagés peuvent suffire lorsque les écritures sont rares. Mais dès que des agents non supervisés modifient la même surface opérationnelle, le mode “last writer wins” devient un incident déguisé.
Si ce problème vous parle déjà, l'article compagnon sur version control for AI agent context approfondit les merges, les scopes et le rollback.
Les premiers pilotes commencent souvent de manière prudente :
Puis les exceptions s'accumulent. Un chemin d'écriture “temporaire” devient permanent. Un agent de support obtient accès à des notes d'analyse interne. Une nouvelle intégration arrive sans être rattachée à une frontière claire d'approbation.
À ce stade, le système a encore l'air productif, mais presque personne ne peut répondre à une question simple : que peut réellement faire chaque agent ?
Tôt ou tard, quelqu'un demandera :
Si la réponse est éparpillée entre logs, prompts et wrappers applicatifs, la collaboration a déjà raté son passage à la production.
Le AI Risk Management Framework du NIST est utile ici, car il rappelle que la confiance et les contrôles de cycle de vie doivent être intégrés au système lui-même.
Donnez à chaque agent la bonne tranche de contexte plutôt qu'un énorme prompt partagéGet startedLe schéma le plus propre en production sépare les responsabilités :
user goal
-> planner / coordinator
-> worker agents with narrow roles
-> governed context and tool access
-> review / approval / rollback layer
-> final action or response
Chaque couche répond à une question différente :
Une surface d'intégration unifiée aide aussi beaucoup. Si les connecteurs et systèmes externes sont gérés à travers une abstraction cohérente, il devient plus facile de savoir quelles données existent, d'où elles viennent et quels agents peuvent y accéder. puppyone l'exprime au travers de son modèle Connections et de ses FLS permissions orientées par chemin.
Si vous cherchez encore où placer les couches protocolaires dans ce stack, MCP in agentic AI est la meilleure lecture complémentaire.
C'est précisément ce que beaucoup d'articles évitent.
Si vos agents se contentent de lire un contexte approuvé et de renvoyer des suggestions à un humain, vous n'avez peut-être pas encore besoin d'une couche de mutation dédiée.
S'ils écrivent en continu dans un contexte opérationnel partagé, c'est probablement le moment.
Cela comprend généralement :
Dès que ces fichiers modifient le comportement d'agents en aval, ils doivent être traités comme de l'état de production.
C'est là que Mut devient important.
Mut est pertinent lorsqu'il faut un modèle de versioning pensé pour du contexte écrit par des agents, et pas seulement pour du code maintenu par des humains. En pratique, cela apporte :
La frontière peut être lue ainsi :
| Problème | Couche de contrôle adaptée |
|---|---|
| Stages de pipeline, approvals, promotion rules | Orchestrateur ou workflow engine |
| Prompts, policies, playbooks et memory partagés | Mut ou couche de mutation de type Mut |
| Visibilité par chemin et limites read/write | Système de permissions |
| Reconstruction d'incident et rollback | Audit plus historique de versions |
Cette séparation compte parce que les équipes surchargent souvent les outils d'orchestration avec des problèmes qu'ils n'ont pas été conçus pour résoudre. Une pipeline peut dire si un changement peut avancer. Elle ne résout pas automatiquement la mutation concurrente et sûre d'un contexte partagé.
Si vous évaluez un pilote avant de le faire passer à l'échelle, voici la checklist minimale utile :
Si vous ne remplissez pas la majorité de ces points, n'ajoutez pas plus d'agents. Clarifiez d'abord les frontières.
Si votre problème n'est pas tant le nombre d'agents que la faiblesse des coutures entre planification, approbation et exécution, poursuivez avec agentic workflow design.
La raison la plus forte d'utiliser une plateforme comme puppyone n'est pas “plus d'IA”. C'est un meilleur contrôle opérationnel.
puppyone devient utile lorsque vous avez besoin de :
Cela devient encore plus important lorsque la collaboration mélange knowledge retrieval et mutation de contexte.
Si votre architecture actuelle repose surtout sur des dossiers ad hoc, des prompts fragiles et des wrappers d'outils, vous n'avez peut-être pas besoin de plus d'autonomie pour l'instant. Vous avez d'abord besoin d'une surface de contexte plus disciplinée. Les meilleurs prolongements sont agent permissions and audit design et context version control.
Commencez avec puppyone si votre équipe d'agents a besoin de contexte scopé, d'écritures auditables et d'une collaboration prête pour le rollbackGet startedTraitez la collaboration multi-agents comme un système gouverné d'état partagé.
Ne commencez pas par : « Combien d'agents devons-nous ajouter ? »
Commencez plutôt par :
Si ces réponses sont faibles, davantage d'agents ne feront qu'amplifier la faiblesse.
Si elles sont solides, la collaboration cesse d'être une démo impressionnante et devient une capacité de production.
Non. Les systèmes multi-agents augmentent spécialisation et parallélisme, mais ajoutent aussi coût de coordination, complexité de permissions et risque de shared state. Si votre workflow est surtout linéaire et read-only, un agent unique bien conçu est souvent le meilleur choix.
Au minimum, il faut une source canonique de vérité pour les policies, les instructions et l'état opérationnel courant, ainsi qu'un chemin d'update clairement défini pour éviter que les agents n'improvisent leur propre vérité à partir de scratchpads et de résumés périmés.
Introduisez Mut lorsque les agents commencent à écrire des prompts partagés, des policies, des runbooks, de la memory ou d'autres artefacts qui modifient le comportement des exécutions suivantes. Si des humains continuent à tout review et merger manuellement, Git peut encore suffire. Si les écritures autonomes deviennent fréquentes, il faut un contrôle de mutation plus fort.