Beaucoup de démos d'agents paraissent meilleures qu'elles ne le sont réellement, parce qu'un opérateur humain prend discrètement en charge une partie du travail :
C'est pour cela que la première mise en production semble souvent déroutante. Rien ne s'est "mystérieusement cassé". Le workflow a simplement perdu la couche humaine invisible qui le faisait paraître plus fiable qu'il ne l'était.
C'est aussi pour cela qu'un bon design de workflow agentique commence par une question directe :
Que se passe-t-il lorsque l'opérateur est occupé et que l'entrée est désordonnée ?
Si la réponse est : "le prompt va gérer ça", vous avez encore une démo.
L'article d'Anthropic sur effective context engineering for AI agents est utile ici parce qu'il déplace l'attention de la formulation du prompt vers l'état complet du contexte qui façonne le comportement. Les workflows de production échouent exactement à cet endroit : non pas parce que le modèle "oublie" une phrase, mais parce que le workflow lui a donné le mauvais état, les mauvais outils ou aucune frontière claire.
Avant d'ajouter davantage d'outils ou de personas d'agents, mettez sous tension ces six surfaces de contrôle :
| Surface de contrôle | La question de conception | Ce qui casse lorsqu'elle reste floue |
|---|---|---|
| Contrat d'objectif | Quel résultat exact ce run doit-il produire ? | L'agent dérive, en fait trop ou s'invente des tâches annexes |
| Modèle d'état | Qu'est-ce qui s'est déjà passé et qu'est-ce qui reste provisoire ? | Les retries dupliquent le travail et les humains ne peuvent pas reprendre proprement |
| Contrat de contexte | Quel paquet de preuves est autorisé à influencer ce step ? | Le modèle mélange des informations obsolètes, bruitées ou contradictoires |
| Frontière des outils | Quelles actions sont disponibles à ce step ? | L'agent va trop loin parce que tout semble autorisé |
| Policy d'approbation | Quelles actions demandent une revue ou un contrôle à l'exécution ? | Le contrôle du risque vit dans le prompt au lieu d'être réellement appliqué |
| Chemin de reprise | Que se passe-t-il si un step échoue ou si la confiance est trop faible ? | Un timeout ou une réponse fragile arrête tout le workflow |
Ce tableau est volontairement peu spectaculaire. Les workflows fiables se construisent avec une clarté peu spectaculaire.
Le AI Risk Management Framework du NIST est utile comme grille de gouvernance, car il ramène sans cesse vers la traçabilité, les contrôles et la gestion du cycle de vie. Cela s'applique directement aux workflows d'agents : vous devriez pouvoir expliquer quelles preuves ont été utilisées, quels outils étaient exposés, quel contrôle a été appliqué et pourquoi le système a continué ou s'est arrêté.
L'une des façons les plus rapides de rendre un workflow d'agents dangereux consiste à laisser le même step décider et exécuter.
Par exemple :
Cela semble efficace. En réalité, cela fusionne jugement et action dans un seul bloc en forme de prompt.
Un schéma plus robuste en production est :
Cela paraît plus lent, mais c'est généralement plus rapide à déboguer, plus sûr à déployer et plus facile à faire évoluer. Le workflow devient inspectable parce que chaque step a un rôle distinct.
Si votre workflow ne peut pas produire un artefact révisable entre "penser" et "agir", c'est un signal de mauvais design. Cet artefact peut être petit :
Le sujet n'est pas la bureaucratie. Le sujet est de rendre visible la couture décisionnelle avant qu'un effet de bord ne se produise.
Les workflows de production devraient être reprenables par défaut. Cela signifie que le système doit savoir ce qui a déjà été fait, ce qu'il attend, et ce qui peut être rejoué sans danger.
Un état illustratif peut ressembler à ceci :
{
"run_id": "wf_2026_04_02_1842",
"status": "awaiting_approval",
"current_step": "execute_change",
"evidence_bundle_id": "ctx_8842",
"proposal": {
"action": "update_policy_exception",
"reason": "ticket matches approved template",
"confidence": 0.78
},
"approval": {
"required": true,
"requested_from": "ops-reviewers",
"requested_at": "2026-04-02T14:20:00Z"
},
"side_effects": [
{"step": "collect_context", "status": "complete"},
{"step": "propose_plan", "status": "complete"}
]
}
Il ne s'agit pas d'obtenir un schéma parfait. Il s'agit d'expliciter.
Dès qu'un workflow porte un état de ce type, plusieurs choses positives apparaissent :
C'est le passage de "espérons que l'agent s'en souvienne" à "le workflow est reprenable par conception".
Les équipes ajoutent souvent l'approbation humaine trop tard et au mauvais endroit. Elles demandent à un reviewer de relire tout ce que l'agent a déjà lu, ce qui transforme l'automatisation en travail manuel déguisé.
Le meilleur schéma consiste à placer l'humain là où le risque métier se concentre :
Et il faut ensuite lui présenter quelque chose d'assez compact pour permettre une décision rapide :
| Mauvais objet d'approbation | Meilleur objet d'approbation |
|---|---|
| transcription complète du chat | une proposition d'action avec des liens vers les preuves |
| dump brut de documents | un paquet de preuves compact avec IDs de source |
| "merci de tout vérifier" | approuver / refuser / demander des modifications sur une seule décision |
La revue humaine doit réduire le risque, pas rejouer le workflow original à la main.
Si le reviewer ne peut pas comprendre l'action proposée en moins d'une minute, le problème se situe généralement plus tôt : trop de contexte, un modèle d'état faible ou un contrat d'action peu clair.
Vous n'avez pas besoin d'une énorme plateforme d'orchestration pour déployer quelque chose de fiable. Un workflow petit mais explicite va déjà très loin :
trigger:
source: inbound_request
steps:
- collect_context
- compact_evidence
- propose_plan
- check_policy
- request_approval_if_needed
- execute_one_narrow_action
- write_audit_log
- return_summary
fallbacks:
on_missing_context: ask_for_more_input
on_low_confidence: route_to_human
on_tool_failure: retry_once_then_pause
on_policy_violation: block_and_log
Ce qui rend cette forme solide, ce n'est pas la sophistication. C'est le fait que chaque step n'a qu'un seul travail et que chaque transition risquée possède un point d'arrêt propre.
Pour une première release, c'est souvent suffisant.
Beaucoup de workflows agentiques échouent avant même que le modèle ne commence, parce que chaque run doit réassembler des preuves provenant de trop de systèmes :
Ce problème n'est pas vraiment du "raisonnement d'agent". C'est un problème d'assemblage de contexte.
puppyone est utile lorsque vous voulez qu'un step du workflow consomme un paquet de contexte gouverné plutôt que de reconstruire les preuves à chaque exécution. En pratique, cela aide à :
Cela ne remplace pas la conception du workflow. Cela réduit l'une des plus grandes sources de fragilité : un contexte incohérent au moment d'agir.
Si vous cherchez à rendre un workflow d'agents sûr pour la production, éliminez ces éléments avant le lancement :
La version un doit être petite, lisible et facile à arrêter.
Cela signifie généralement moins d'autonomie que ce que la démo suggérait. Tant mieux. Une autonomie bornée est plus facile à faire confiance, à mesurer et à améliorer.
Rendre la fiabilité du workflow visible avec puppyoneGet startedNon. Il vous faut un état explicite, une séparation claire entre planification et action, et un chemin de pause propre lorsque la confiance est faible ou qu'une approbation est nécessaire.
Chercher à maximiser l'autonomie trop tôt. Cela produit des démos impressionnantes, mais un comportement fragile en production tant que l'état, les frontières d'outils, les approbations et la reprise ne sont pas clairement définis.
Quand l'action est destructive, sensible à la policy, peu fiable ou difficile à annuler. La revue humaine fonctionne le mieux sur la couture de décision, pas après que l'effet de bord a déjà eu lieu.