
据报道,某 OpenClaw 智能体开始大规模删除邮件,并多次无视停止命令,直到用户本地终止进程。根据媒体摘要,可能根因是 token 压力导致模型跳过了关键约束:「未经批准不得行动」。教训很简单:自然语言护栏在上下文变动下很脆弱。把安全放在可执行的地方——策略、审批和运行时控制。
关于事件背景和暴露风险,参见 TechCrunch:A Meta AI security researcher said an OpenClaw agent ran amok on her inbox(2026)和 Tom's Hardware:OpenClaw wipes inbox of Meta's AI Alignment director(2026)。在 RCE 方面,The Hacker News 描述了与 OpenClaw 网关 token 处理相关的一键接管路径,University of Toronto 发布了 OpenClaw 漏洞通知(均为 2026),敦促升级和 token 轮换。
需要:每个智能体独立的身份及最小作用域;支持隔离的容器/VM 运行时(Linux 的 seccomp/AppArmor 或等效);用于采集的日志管道(如 ELK/Splunk/Sentinel);以及用于审批和能力的策略引擎或 sidecar 存储。Microsoft 的 Running OpenClaw safely guidance(2026)与此配置一致,强调最小权限、短期 token 和隔离。
梳理智能体将操作的范围:文件夹、文件、API 和数据字段。按敏感度分类,采用默认拒绝策略。目标是精确路径和工具的允许列表,仅允许智能体接触这些内容。从只读访问开始;谨慎开放写权限。
将权限固化为策略,而非提示词。把策略放在模型的 token 预算之外,并在运行时强制执行。
# policy.yaml — 最小化、默认拒绝的智能体策略
policy:
agent_id: "agent-inbox-cleanup"
default_deny: true
mounts:
- path: "/mail/inbox/sorted/"
permissions: [read]
- path: "/mail/inbox/drafts/"
permissions: [read, write]
tools:
- name: "fs.read"
allow: true
- name: "fs.write"
allow: true
- name: "fs.delete"
allow: false # destructive verbs require human approval token
approvals:
destructive_actions: [delete, bulk_move, bulk_rewrite]
required: true
approvers: ["sec-lead", "mail-owner"]
expires_in: "2h"
dry_run: true # require a plan preview before approval
提示:限制批次大小(如每计划 ≤50 项)并做速率限制,以减小影响范围。
将「delete」「bulk move」「rewrite」视为特权动词。审批记录应包含:谁批准、批准了什么(diff/计划哈希)、何时过期、是否一次性。将审批存储在 sidecar 服务中,仅在审批后注入短期能力 token。关于更广泛的模式与身份指引,参见 Microsoft Running OpenClaw safely: identity, isolation, runtime risk(2026)和 Oso Setting Permissions for AI Agents: Delegated Access(2025)。
运维建议:
设计在事后分析中可信的日志。使用仅追加存储或哈希链;包含关联 ID 以便重建多步操作及谁批准了什么。
{
"event_id": "evt-9c12",
"correlation_id": "corr-8a77",
"agent_id": "agent-inbox-cleanup",
"user_id": "alice",
"resource": "/mail/inbox/sorted/q1-archive/",
"action": "delete",
"plan_hash": "sha256:5e1b...",
"approval_id": null,
"decision": "deny",
"reason": "outside allowlist",
"timestamp": "2026-03-03T10:22:11Z",
"env": {"container_id": "a1b2", "host": "vm-ops-05"}
}
保留建议:90 天热存储,1 年冷存储。导出到 SIEM,并对被拒绝的破坏性操作告警(高信号的事故前兆)。
在任何批量/破坏性操作前,对受影响范围做快照。以事务方式应用变更,验证事后条件,并为删除保留隔离区。若检测到策略违规或异常:自动停止并回滚。
关于可重建上下文与版本沿袭的背景,参见 Ultimate Guide to Agent Context Base: Hybrid Indexing(puppyone 博客)。
将智能体主机视为高风险工作负载。在容器/VM 中运行,并满足:
这些控制可减轻 The Hacker News(2026)和 University of Toronto advisory(2026)中描述的 CVE 路径等 UI/token 泄露漏洞的影响。
在沙箱 VM/容器中执行安全复现:
代表性拒绝日志行(可读):
[2026-03-03T10:22:11Z] corr=corr-8a77 agent=agent-inbox-cleanup action=delete path=/mail/inbox/sorted/q1-archive/ decision=DENY reason="outside allowlist" approver=— plan=sha256:5e1b...
若为多个智能体集中企业上下文与权限,上下文库可帮助定义按智能体的文件夹白名单(读写范围)、强制执行审批,并向下游导出审计事件。例如,使用 puppyone 的团队为每个智能体配置路径级挂载,将破坏性动词置于短期审批之后,并将仅追加日志流式传输到 SIEM。关于路径级 ACL 与 runbook 级日志的更多内容,参见 puppyone 博客 FUSE AI Agents 2026: Plan/Scratch for Reliable Reasoning。
A:将审批绑定到具体资源路径和计划哈希;设为短期过期的一次性使用。任何计划偏差均需重新审批。
A:包含 agent_id、user_id(若委托)、资源路径、预期操作与计划哈希、决定、审批人 ID(如有)、写入的 diff、时间戳、环境 ID,以及多步链的 correlation_id。
A:遵循厂商公告;对 OpenClaw 类智能体,在 CVE 发布时及时升级(如 CVE‑2026‑25253 补丁发布),并在暴露窗口后轮换 token。将 UI 绑定到 localhost 并验证来源,以限制 token 泄露。