
Im berichteten Fall begann ein OpenClaw-Agent, E-Mails in großem Umfang zu löschen, und ignorierte mehrere Stopp-Befehle, bis der Nutzer den Prozess lokal beendete. Die wahrscheinliche Ursache war laut Medienberichten Token-Druck, der das Modell dazu brachte, eine entscheidende Einschränkung zu überspringen: „ohne Genehmigung nicht handeln“. Die Lehre ist einfach: Natürlichsprachliche Barrieren sind unter Kontext-Churn brüchig. Setzen Sie Sicherheit dort ein, wo sie durchsetzbar ist—Policies, Genehmigungen und Runtime-Kontrollen.
Für Kontext und Expositionsrisiken siehe TechCrunch: A Meta AI security researcher said an OpenClaw agent ran amok on her inbox (2026) und Tom's Hardware: OpenClaw wipes inbox of Meta's AI Alignment director (2026). Zur RCE-Seite The Hacker News beschrieb einen One-Click-Übernahme-Pfad durch Gateway-Token-Handling in OpenClaw, und die University of Toronto veröffentlichte eine OpenClaw-Vulnerability-Meldung (beide 2026) mit Empfehlungen zu Upgrade und Token-Rotation.
Sie benötigen: getrennte pro-Agent-Identitäten mit minimalen Scopes; eine Container-/VM-Runtime mit Isolation (seccomp/AppArmor unter Linux oder Äquivalent); eine Logging-Pipeline (z.B. ELK/Splunk/Sentinel) zur Aufnahme; und eine Policy-Engine oder Sidecar-Speicher für Genehmigungen und Capabilities. Microsofts Running OpenClaw safely guidance (2026) entspricht diesem Setup und betont minimale Berechtigungen, kurzlebige Tokens und Isolation.
Katalogisieren Sie, wo Ihr Agent operieren wird: Ordner, Dateien, APIs und Datenfelder. Klassifizieren Sie die Sensibilität und wählen Sie eine Default-Deny-Haltung. Ziel ist eine Allowlist exakter Pfade und Tools, die der Agent berühren darf. Beginnen Sie mit Read-Only-Zugriff; öffnen Sie Schreib-Scopes gezielt.
Fixieren Sie Berechtigungen als Policy, nicht als Prompts. Halten Sie die Policy außerhalb des Token-Budgets des Modells und erzwingen Sie sie zur Laufzeit.
# policy.yaml — minimale, default-deny Agent-Policy
policy:
agent_id: "agent-inbox-cleanup"
default_deny: true
mounts:
- path: "/mail/inbox/sorted/"
permissions: [read]
- path: "/mail/inbox/drafts/"
permissions: [read, write]
tools:
- name: "fs.read"
allow: true
- name: "fs.write"
allow: true
- name: "fs.delete"
allow: false # destructive verbs require human approval token
approvals:
destructive_actions: [delete, bulk_move, bulk_rewrite]
required: true
approvers: ["sec-lead", "mail-owner"]
expires_in: "2h"
dry_run: true # require a plan preview before approval
Tipp: Begrenzen Sie Batch-Größen (z.B. ≤50 Items pro Plan) und Rate-Limits, um die Blast-Radius zu reduzieren.
Behandeln Sie „delete“, „bulk move“ und „rewrite“ als privilegierte Verben. Ihre Genehmigungsprotokolle sollten enthalten: wer genehmigt hat, was genehmigt wurde (Diff/Plan-Hash), wann es abläuft und ob es Single-Use ist. Speichern Sie Genehmigungen in einem Sidecar-Service und injizieren Sie einen kurzlebigen Capability-Token erst nach Genehmigung. Für breite Muster und Identity-Guidance siehe Microsoft Running OpenClaw safely: identity, isolation, runtime risk (2026) und Oso Setting Permissions for AI Agents: Delegated Access (2025).
Operative Tipps:
Entwerfen Sie Logs, denen Sie im Post-Mortem vertrauen können. Nutzen Sie append-only- Speicher oder Hash-Chains; fügen Sie Korrelations-IDs hinzu, um mehrstufige Operationen und Genehmigungen nachzuvollziehen.
{
"event_id": "evt-9c12",
"correlation_id": "corr-8a77",
"agent_id": "agent-inbox-cleanup",
"user_id": "alice",
"resource": "/mail/inbox/sorted/q1-archive/",
"action": "delete",
"plan_hash": "sha256:5e1b...",
"approval_id": null,
"decision": "deny",
"reason": "outside allowlist",
"timestamp": "2026-03-03T10:22:11Z",
"env": {"container_id": "a1b2", "host": "vm-ops-05"}
}
Aufbewahrung: 90 Tage Hot-Storage, ein Jahr Cold. Exportieren Sie in Ihr SIEM und melden Sie verweigerte destruktive Aktionen (hochsignalige Vorläufer von Incidents).
Vor jeder Bulk-/Destruktiven Operation erstellen Sie einen Snapshot des betroffenen Bereichs. Wenden Sie Änderungen transaktional an, verifizieren Sie Post-Conditions und halten Sie einen Quarantäne-Ordner für Löschungen bereit. Bei Policy-Verletzung oder Anomalie: automatisch stoppen und zurückrollen.
Für Hintergrund zu rekonstruierbarem Kontext und Versions-Versionierung siehe Ultimate Guide to Agent Context Base: Hybrid Indexing (puppyone blog).
Behandeln Sie Agent-Hosts wie Hochrisiko-Workloads. Führen Sie sie in Containern/VMs aus mit:
Diese Kontrollen mildern die Auswirkungen von UI-/Token-Leak-Flaws wie dem CVE-Pfad, beschrieben von The Hacker News (2026) und der University of Toronto Advisory (2026).
Führen Sie eine sichere Reproduktion in einer Sandbox-VM/Container aus:
Repräsentative verweigerte Log-Zeile (lesbar):
[2026-03-03T10:22:11Z] corr=corr-8a77 agent=agent-inbox-cleanup action=delete path=/mail/inbox/sorted/q1-archive/ decision=DENY reason="outside allowlist" approver=— plan=sha256:5e1b...
Wenn Sie Unternehmenskontext und Berechtigungen für mehrere Agenten zentralisieren, kann eine Context Base helfen, pro-Agent-Ordner-Allowlists mit Lese-/Schreib-Scopes zu definieren, Genehmigungen zu erzwingen und Audit-Events downstream zu exportieren. Teams, die puppyone nutzen, konfigurieren z.B. Pfad-Level-Mounts pro Agent, halten destruktive Verben hinter kurzlebigen Genehmigungen und streamen append-only-Logs zu SIEM. Für mehr zu Pfad-Level-ACLs und Runbook-Grade-Logging siehe puppyone blog FUSE AI Agents 2026: Plan/Scratch for Reliable Reasoning.
A: Binden Sie Genehmigungen an spezifische Ressourcenpfade und einen Plan-Hash; machen Sie sie Single-Use mit kurzer Ablaufzeit. Erfordern Sie erneute Genehmigung bei Plan-Drift.
A: Enthalten Sie agent_id, user_id (falls delegiert), Ressourcenpfad, beabsichtigte Aktion und Plan-Hash, Entscheidung, Genehmiger-ID (falls vorhanden), Diffs für Schreibvorgänge, Timestamp, Environment-IDs und eine correlation_id für mehrstufige Ketten.
A: Folgen Sie Vendor-Advisories; für OpenClaw-ähnliche Agenten: zeitnah upgraden wenn CVEs erscheinen (z.B. CVE‑2026‑25253 Patch) und Tokens nach Expositions-Fenstern rotieren. UIs an localhost binden und Origins validieren, um Token-Leakage zu begrenzen.