初期のエージェントデモが実態以上によく見えるのは、人間のオペレーターが静かに一部の仕事を引き取っているからです。
そのため、最初の本番運用で「急に壊れた」ように感じることがあります。実際には、信頼性を支えていた見えない人間の層が消えただけです。
だからこそ、よいワークフロー設計は次の問いから始まります。
オペレーターが忙しく、入力も雑だったら何が起こるか。
この問いに対する答えが「prompt が何とかしてくれる」であれば、それはまだデモです。
Anthropic の effective context engineering for AI agents は、問題の焦点を prompt wording から、モデルに渡される context state 全体へ移しています。本番ワークフローが壊れるのもまさにそこです。モデルが文を「忘れた」からではなく、ワークフローが間違った state や tool、あるいは境界のない実行環境を渡したからです。
tool を増やしたり agent persona を増やしたりする前に、まず次の六つを明確にしてください。
| 制御面 | 設計上の問い | 曖昧だと何が壊れるか |
|---|---|---|
| Goal contract | この run は何を正確に達成すべきか | エージェントが脱線し、余計なことまでやる |
| State model | 何が完了済みで、何がまだ暫定か | リトライで作業が重複し、人間も安全に再開できない |
| Context contract | この step を形作ってよい証拠は何か | 古い情報、ノイズ、矛盾が混ざる |
| Tool boundary | この step で許される action は何か | 何でもできそうに見えて、必要以上に手を伸ばす |
| Approval policy | どの action が実行時の review や policy check を要するか | リスク制御が prompt の文言だけに依存する |
| Recovery path | step が失敗したり confidence が低いとき、どう止まるか | timeout や弱い回答で全体が止まる |
この表は意図的に地味です。信頼できるワークフローは、派手さよりも地味な明確さから生まれます。
NIST の AI Risk Management Framework も、traceability、control、lifecycle management を重視しています。エージェントワークフローでも同じです。どの evidence を使い、どの tool が開いていて、どの policy gate が働き、なぜ継続または停止したのかを説明できるべきです。
一つの step に判断と実行を同時に持たせることは、ワークフローを危険にする最短ルートの一つです。
たとえば次のような指示です。
一見効率的ですが、実際には judgment と action を一つの prompt 形状の塊に押し込んでいます。
より強い本番パターンは次の形です。
これは一見遅く見えても、デバッグしやすく、展開しやすく、スケールしやすい形です。各 step の役割が違うため、ワークフローが検査可能になります。
「考える」と「動く」の間に review 可能な artifact が作れないなら、それは設計上の匂いです。artifact は小さくて構いません。
大事なのは官僚化ではなく、side effect が起きる前に decision seam を見えるようにすることです。
本番ワークフローは、最初から再開可能であるべきです。つまり、何が終わり、何を待ち、何なら安全に再試行できるかをシステムが知っている必要があります。
例として、次のような state shape が考えられます。
{
"run_id": "wf_2026_04_02_1842",
"status": "awaiting_approval",
"current_step": "execute_change",
"evidence_bundle_id": "ctx_8842",
"proposal": {
"action": "update_policy_exception",
"reason": "ticket matches approved template",
"confidence": 0.78
},
"approval": {
"required": true,
"requested_from": "ops-reviewers",
"requested_at": "2026-04-02T14:20:00Z"
},
"side_effects": [
{"step": "collect_context", "status": "complete"},
{"step": "propose_plan", "status": "complete"}
]
}
重要なのは完璧な schema ではなく、明示性です。
こうした state を持つと、次のことが起きます。
これは「エージェントが覚えていてくれることを祈る」から、「設計として再開可能である」への転換です。
人間の承認を入れる場所が遅すぎたり、間違っていたりするケースは多いです。エージェントが読んだものを人間にも全部読み直させると、自動化は手作業に戻ってしまいます。
よりよいパターンは、ビジネスリスクが集中する seam に人間を置くことです。
そして reviewer には短時間で判断できる対象を渡すべきです。
| よくない approval object | よい approval object |
|---|---|
| chat transcript 全体 | evidence link つきの一つの action proposal |
| 生の document dump | source ID つきの compact な evidence bundle |
| 「全部見てください」 | 一つの decision への approve / deny / request changes |
人間の review は、元のワークフローを手で再実行するためではなく、リスクを除くためにあります。
提案された action を一分以内で理解できないなら、問題は upstream にあることが多いです。context が多すぎる、state が弱い、または action contract が曖昧なのです。
信頼できるものを出すために巨大な orchestration platform は必須ではありません。小さくても明示的なワークフローでかなりの距離を進めます。
trigger:
source: inbound_request
steps:
- collect_context
- compact_evidence
- propose_plan
- check_policy
- request_approval_if_needed
- execute_one_narrow_action
- write_audit_log
- return_summary
fallbacks:
on_missing_context: ask_for_more_input
on_low_confidence: route_to_human
on_tool_failure: retry_once_then_pause
on_policy_violation: block_and_log
この形が強いのは、洗練されているからではありません。各 step が一つの仕事だけを持ち、リスクの高い遷移ごとに clean に止まれるからです。
初回リリースとしては、これで十分なことが多いです。
多くのエージェント型ワークフローは、モデルが考え始める前に失敗します。各 run で複数システムから evidence を組み立て直さなければならないからです。
これは「agent reasoning」の失敗というより、context assembly の失敗です。
puppyone は、各 step が毎回 evidence を組み立て直すのではなく、governed context bundle を使いたいときに役立ちます。実際には次の点で効いてきます。
puppyone は workflow design を置き換えるものではありません。ただ、行動の瞬間に context が不安定になるという大きな fragility source を減らします。
本番に耐える agent workflow を作るなら、まず次を削ってください。
version one は小さく、読みやすく、止めやすいべきです。
デモが見せたほどの autonomy にならなくても構いません。bounded autonomy の方が信頼しやすく、測りやすく、改善しやすいからです。
puppyoneでworkflowの信頼性を見える化Get started必ずしも必要ではありません。必要なのは、明示的な state、plan と action の明確な分離、そして confidence が低いときや approval が必要なときに clean に pause できる経路です。
autonomy を早すぎる段階で最大化しようとすることです。state、tool boundary、approval、recovery が整う前にそれをやると、派手なデモと fragile な本番挙動が残ります。
action が destructive である、policy に敏感である、confidence が低い、あるいは取り消しにくいときです。human review は、side effect の後ではなく decision seam に置くのが最も有効です。