
No caso relatado, um agente OpenClaw começou a excluir e-mails em escala e ignorou vários comandos de parada até o usuário encerrar o processo localmente. A causa provável, segundo resumos da mídia, foi pressão de tokens fazendo o modelo pular uma restrição crucial: "não agir sem aprovação". A lição é simples: barreiras em linguagem natural são frágeis sob mudança de contexto. Coloque a segurança onde for aplicável—políticas, aprovações e controles de runtime.
Para contexto do incidente e riscos de exposição, veja TechCrunch: A Meta AI security researcher said an OpenClaw agent ran amok on her inbox (2026) e Tom's Hardware: OpenClaw wipes inbox of Meta's AI Alignment director (2026). No lado RCE, The Hacker News descreveu uma via de tomada de controle em um clique ligada ao tratamento de tokens do gateway em OpenClaw, e a University of Toronto publicou uma notificação de vulnerabilidade OpenClaw (ambos 2026) recomendando atualizações e rotação de tokens.
Você precisará: identidades distintas por agente com escopos mínimos; um runtime de contêiner/VM que suporte isolamento (seccomp/AppArmor no Linux ou equivalente); um pipeline de logging (ex.: ELK/Splunk/Sentinel) para ingestão; e um motor de políticas ou armazenamento sidecar para aprovações e capacidades. A orientação da Microsoft Running OpenClaw safely (2026) se alinha a esse setup, enfatizando permissões mínimas, tokens de curta duração e isolamento.
Catalogue onde seu agente operará: pastas, arquivos, APIs e campos de dados. Classifique a sensibilidade e adote postura de negação por padrão. O objetivo é uma lista branca de caminhos e ferramentas exatos que o agente pode tocar. Comece com acesso somente leitura; abra escopos de escrita cirurgicamente.
Fixar permissões como política, não como prompts. Mantenha a política fora do orçamento de tokens do modelo e aplique-a em runtime.
# policy.yaml — política de agente mínima, negação por padrão
policy:
agent_id: "agent-inbox-cleanup"
default_deny: true
mounts:
- path: "/mail/inbox/sorted/"
permissions: [read]
- path: "/mail/inbox/drafts/"
permissions: [read, write]
tools:
- name: "fs.read"
allow: true
- name: "fs.write"
allow: true
- name: "fs.delete"
allow: false # destructive verbs require human approval token
approvals:
destructive_actions: [delete, bulk_move, bulk_rewrite]
required: true
approvers: ["sec-lead", "mail-owner"]
expires_in: "2h"
dry_run: true # require a plan preview before approval
Dica: limite tamanhos de batch (ex.: ≤50 itens por plano) e rate-limit para reduzir o raio de impacto.
Trate "delete", "bulk move" e "rewrite" como verbos privilegiados. Seus registros de aprovação devem incluir: quem aprovou, o que foi aprovado (hash de diff/plano), quando expira e se é de uso único. Armazene aprovações em um serviço sidecar e injete um token de capacidade de curta duração apenas após aprovação. Para padrões amplos e orientação de identidade, veja Microsoft Running OpenClaw safely: identity, isolation, runtime risk (2026) e Oso Setting Permissions for AI Agents: Delegated Access (2025).
Dicas operacionais:
Projete logs em que você possa confiar em um post-mortem. Use armazenamento append-only ou cadeias de hash; inclua IDs de correlação para reconstruir operações multi-etapas e quem aprovou o quê.
{
"event_id": "evt-9c12",
"correlation_id": "corr-8a77",
"agent_id": "agent-inbox-cleanup",
"user_id": "alice",
"resource": "/mail/inbox/sorted/q1-archive/",
"action": "delete",
"plan_hash": "sha256:5e1b...",
"approval_id": null,
"decision": "deny",
"reason": "outside allowlist",
"timestamp": "2026-03-03T10:22:11Z",
"env": {"container_id": "a1b2", "host": "vm-ops-05"}
}
Retenção: 90 dias armazenamento quente, um ano frio. Exporte para seu SIEM e alerte sobre ações destrutivas negadas (precursores de alto sinal de incidentes).
Antes de qualquer operação em massa/destrutiva, faça snapshot do escopo afetado. Aplique alterações transacionalmente, verifique pós-condições e mantenha uma lixeira de quarentena para exclusões. Se violação de política ou anomalia detectada: pare e faça rollback automaticamente.
Para contexto sobre reconstrução e linhagem de versões, veja Ultimate Guide to Agent Context Base: Hybrid Indexing (blog puppyone).
Trate hosts de agentes como cargas de alto risco. Execute-os em contêineres/VMs com:
Esses controles mitigam o impacto de falhas de vazamento de UI/token como a via CVE descrita por The Hacker News (2026) e o advisory da University of Toronto (2026).
Execute uma reprodução segura em uma VM/contêiner sandbox:
Linha de log negada representativa (legível):
[2026-03-03T10:22:11Z] corr=corr-8a77 agent=agent-inbox-cleanup action=delete path=/mail/inbox/sorted/q1-archive/ decision=DENY reason="outside allowlist" approver=— plan=sha256:5e1b...
Se você centraliza contexto empresarial e permissões para múltiplos agentes, uma context base pode ajudar a definir listas brancas de pastas por agente com escopos leitura/escrita, aplicar aprovações e exportar eventos de auditoria downstream. Por exemplo, equipes usando puppyone configuram montagens em nível de caminho para cada agente, mantêm verbos destrutivos atrás de aprovações de curta duração e transmitem logs append-only para SIEM. Para mais sobre ACLs em nível de caminho e logging de nível runbook, veja o blog puppyone FUSE AI Agents 2026: Plan/Scratch for Reliable Reasoning.
R: Vincule aprovações a caminhos de recursos específicos e um hash do plano; torne-as de uso único com expiração curta. Exija re-aprovação para qualquer drift do plano.
R: Inclua agent_id, user_id (se delegado), caminho do recurso, ação pretendida e hash do plano, decisão, ID do aprovador (se houver), diffs para gravações, timestamp, IDs de ambiente e correlation_id para cadeias multi-etapas.
R: Siga os advisories dos fornecedores; para agentes tipo OpenClaw, atualize prontamente quando CVEs surgirem (ex.: release de patch CVE‑2026‑25253) e rotacione tokens após janelas de exposição. Mantenha UIs vinculadas a localhost e valide origens para limitar vazamento de tokens.