Quand une équipe dit avoir besoin d'agent memory, elle parle en général d'au moins trois problèmes distincts en même temps.
Les deux premiers sont devenus des exigences courantes. Le troisième est le point où la plupart des systèmes en production deviennent inconfortables.
Une fenêtre de contexte plus large reste un working set. Ce n'est pas un policy engine, pas un store persistant, pas un workflow de revue, pas un mécanisme de rollback. Si l'agent se contente de répondre à des questions, le retrieval peut suffire. Dès que l'agent met à jour des notes d'onboarding, des runbooks d'incident, des plans de compte, des résumés de politique ou des rapports générés, la mémoire est devenue un état opérationnel.
La documentation actuelle de Cloudflare Agents décrit le stockage de conversation persistant, les context blocks, la compaction, la search et des outils de memory pilotables par l'IA via la Session API (doc Cloudflare Agents memory, référence Session API). Redis reformule le même basculement sous un autre angle : l'agent memory est l'infrastructure qui transforme des appels de modèle sans état en systèmes à état (vue d'ensemble Redis de l'agent memory).
Ce sont de bons signaux, mais la question côté acheteur est plus serrée : quel type de plateforme de mémoire correspond aux modes de défaillance que vous devez réellement maîtriser ?
La plupart des comparatifs collent tout sous l'étiquette « long-term memory ». C'est ainsi que des équipes achètent un bon retriever puis découvrent qu'elles ne peuvent toujours pas livrer en sécurité.
Utilisez plutôt un modèle à trois couches.
| Couche | À quoi elle répond | Défaillance type si elle manque |
|---|---|---|
| Couche de mémoire | Comment stocker, classer, récupérer, résumer, faire expirer le contexte ? | Recall non pertinent, faits périmés, mémoires dupliquées, coût en tokens élevé |
| Couche de gouvernance | Qui peut lire, écrire, approuver, supprimer, inspecter et rollback la mémoire ? | Dérive silencieuse, personnalisation dangereuse, trous de compliance, pas de recovery |
| Couche de distribution | Comment plusieurs agents, outils, runtimes et humains consomment-ils le même contexte ? | Lock-in framework, contexte dupliqué, source de vérité incohérente |
La couche de mémoire est ce que les plateformes mettent en avant en premier. Ce sont la gouvernance et la distribution qui décident si le système tient face à des multi-agents et à des données d'entreprise réelles.
Pour les équipes qui pensent déjà le contexte comme une infrastructure, le guide connexe de puppyone sur l'infrastructure agent et les filesystems versionnés approfondit le volet workspace de fichiers.
Construisez une couche de contexte gouvernée pour des agents qui ont besoin de mémoire, de fichiers et de rollbackGet startedLa bonne question n'est pas « quel outil est le meilleur », mais « quelle architecture colle à ce workflow ».
| Approche | Idéal pour | Ce que vous obtenez | Ce qui reste à résoudre |
|---|---|---|---|
| Service de mémoire géré | Équipes déjà sur un cloud ou un runtime d'agents | Sessions persistantes, context blocks, compaction, patterns de storage gérés | Distribution cross-plateforme, politique de write à l'échelle de l'organisation, revues plus profondes |
| Memory SDK ou couche | Équipes produit ajoutant rapidement personnalisation ou recall scopé | APIs pour ajouter, rechercher, scoper des mémoires | Consentement, rétention, secrets, audit, rollback |
| Mémoire session + knowledge graph | Produits conversationnels avec faits et relations utilisateur | Faits extraits, graphes utilisateurs, graphes de groupes, relations interprétables | Approbation des changements, gouvernance de la source de vérité, artefacts opérationnels |
| Runtime d'agent stateful | Agents longs qui pilotent leurs propres outils de mémoire | Opérations mémoire au niveau agent et recall piloté par tools | Gouvernance du contexte partagé entre équipes et runtimes |
| Substrat maison | Équipes plateforme avec exigences strictes sur données, latence, compliance | Contrôle maximum du stockage, de l'indexation, du déploiement et de l'observabilité | Logique d'extraction, UX, politiques, évaluation, maintenance |
| Agents Filesystem | Workflows multi-agents avec fichiers partagés, artefacts et writes gouvernés | Structure lisible par les agents, fichiers durables, permissions par chemin, versionning, rollback | Design de la politique de mémoire, gates d'approbation, intégration avec retrieval et orchestration |
Cette matrice évite volontairement de désigner un vainqueur universel. Un chatbot de support, un agent de coding et un agent de back-office finance n'ont pas le même problème de mémoire.
Les services gérés séduisent parce qu'ils empaquètent persistance, compaction et retrieval sous forme de primitives runtime. Le modèle de mémoire de Cloudflare Agents, par exemple, s'articule autour du session storage et des context blocks que l'agent peut rechercher, charger et mettre à jour via des tools.
Cela convient quand :
À surveiller :
Utilisez une mémoire gérée pour réduire la plomberie, mais ne la traitez pas comme un remplaçant de votre couche de politiques.
Les memory SDK sont souvent la voie la plus rapide quand une équipe produit veut de la personnalisation persistante, un recall scopé ou une API de mémoire sans adopter un runtime complet.
Mem0 est un bon exemple parce que sa documentation distingue conversation, session, user et organization memory, et met en garde contre le stockage de secrets ou de PII non masqués dans des mémoires interrogeables (Mem0 memory types). Sans scope, la « mémoire » devient un tiroir fourre-tout.
Cela convient quand :
À surveiller :
Règle pratique de départ : tout ce qui passe de la mémoire de session à la mémoire utilisateur ou organisation doit avoir un owner, un TTL ou une politique de rétention et une piste d'audit.
La mémoire orientée graphe est la plus forte quand l'information clé est relationnelle : personnes, comptes, préférences, entités, politiques, dépendances, événements dans le temps.
La documentation de Zep décrit par exemple un historique chat par session, plus des user knowledge graphs et des group graphs consultables pour du contexte pertinent (Zep quickstart, guide group graph de Zep). Faits et relations ont une structure explicite, ce qui est souvent plus interprétable qu'un embedding pur.
Cela convient quand :
À surveiller :
La mémoire graphe complète souvent une context base, elle ne la remplace pas.
Les runtimes stateful permettent aux agents de gérer activement la mémoire via des tools : lire, écrire, rechercher, résumer, réorganiser. Le travail de benchmark de Letta est précieux parce qu'il pointe un fait pratique : la performance mémoire ne dépend pas seulement du backend de stockage, mais aussi de la capacité de l'agent à utiliser ces tools de façon fiable (benchmark mémoire Letta).
C'est là que la mémoire de type filesystem devient intéressante. Les agents sont à l'aise avec les opérations de fichiers : list, read, search, edit, diff, write. Les développeurs sont à l'aise avec des revues de fichiers. Les équipes sécurité sont à l'aise pour raisonner sur chemins, mounts, identités et audit logs.
Cela convient quand :
À surveiller :
Pour les patterns de sécurité au niveau fichier, voir le guide puppyone sur le design de filesystem pour AI agents.
Certaines équipes doivent construire plus de stack en interne. Si la résidence des données, la latence, la topologie de déploiement ou la profondeur d'intégration sont l'exigence centrale, un substrat composable peut être la bonne option.
Redis est un exemple fréquent parce qu'il supporte dans une même stack état faible latence, cache et vector search. L'article mémoire de Redis esquisse un pipeline d'encodage, stockage, retrieval et intégration à la réponse de l'agent. C'est la partie facile à nommer. Le reste est plus difficile :
Cela convient quand :
À surveiller :
Construisez vous-même quand le contrôle est l'objectif. Achetez ou adoptez quand la plateforme n'est pas votre différenciant.
Un Agents Filesystem n'est pas juste un dossier. C'est un workspace de contexte gouverné pensé pour les agents.
Il devient la bonne couche quand les agents doivent :
C'est exactement le problème autour duquel puppyone est construit : connecter des sources de données d'entreprise, représenter le contexte comme des fichiers lisibles par les agents (Markdown, JSON), scoper les accès via Access Point, exposer ce contexte par des interfaces agent-natives et conserver versionning et audit logs autour du travail des agents.
Tous les produits n'ont pas besoin de démarrer par une couche filesystem complète. Si vous n'avez besoin que de préférences par utilisateur dans un chatbot, un memory SDK suffit. Si vos agents éditent des runbooks partagés, des résumés de politique, des fichiers de contexte ou des sorties de workflow, un filesystem gouverné vous donne un modèle de recovery nettement meilleur.
La distinction clef est simple : la mémoire de retrieval aide un agent à se souvenir. Un filesystem gouverné aide une équipe à faire confiance à ce que les agents changent.
Lancez un petit bakeoff avant de choisir une plateforme. Prenez deux ou trois workflows représentatifs, pas des démos génériques.
| Test | Ce qu'on mesure | Pourquoi ça compte |
|---|---|---|
| Recall exact | IDs, noms de politique, faits de compte, dernières décisions | La similarité sémantique ne suffit pas sur des faits opérationnels |
| Gestion de l'obsolescence | Si les vieux faits sont filtrés ou marqués stale | Un agent ne doit pas ressusciter un contexte expiré |
| Sécurité d'écriture | Qui peut écrire, où ça atterrit, comment c'est revu | Les writes mémoire sont des mutations |
| Isolation multi-agent | Si des agents peu fiables peuvent polluer le contexte partagé | Un mauvais write ne doit pas se propager |
| Explicabilité | Pourquoi une mémoire a été récupérée ou mise à jour | Le debug a besoin de traces |
| Rollback | Vitesse à laquelle on restaure un état précédent | Mauvaises mémoires et mauvais fichiers sont inévitables |
| Portabilité | Si plusieurs runtimes peuvent utiliser le même contexte | Les agents d'entreprise ne restent pas sur un seul client pour toujours |
Utilisez le bakeoff pour décider, pas pour admirer la plus belle démo.
Un raccourci quand la discussion d'architecture devient floue.
Pour un cadrage architectural plus profond, lisez cette checklist avec Context Engineering : quand RAG ne suffit pas. La frontière est la même : le recall simple se résout avec un retrieval simple ; les agents en production ont besoin d'un contexte structuré, gouverné et réutilisable.
Évaluez puppyone comme couche gouvernée de mémoire et de fichiers pour votre stack d'agentsGet startedRAG est en général un pattern de retrieval : aller chercher les documents pertinents et les injecter dans le prompt. L'agent memory est plus large : préférences persistantes, décisions, état de workflow, artefacts, politiques d'écriture, règles de rétention et mécanismes pour retrouver ou modifier ce contexte ensuite.
Elle peut en être un composant, rarement le tout. La vector search aide au recall sémantique, mais une agent memory entreprise a aussi besoin de lookups déterministes, droits scopés, historique des changements, audit trail, rétention et rollback.
Commencez par les scopes : session, user, organisation, rôle d'agent, workflow. Définissez ensuite ce qui peut être stocké, ce qui ne doit jamais l'être, qui peut écrire dans la mémoire partagée et comment fonctionne le rollback. N'optimisez l'indexation et le retrieval qu'après.
puppyone entre en jeu dès que la mémoire n'est pas qu'une affaire de personnalisation ou de retrieval, mais bien de contexte opérationnel partagé. Si vos agents ont besoin de fichiers gouvernés, d'un contexte accessible via MCP, de mounts de sandbox, d'un historique de versions et d'audit logs, puppyone peut servir de context base et d'Agents Filesystem autour de vos modèles et runtimes existants.