
Commencez simple et résistez à l'infrastructure prématurée. Vous n'avez probablement pas besoin d'une couche de contexte si :
Vous avez besoin d'une couche de contexte dédiée quand :
Le HTML non structuré est du bruit pour les machines. Une couche de contexte transforme procédures, entités, contraintes et règles métier en Know‑How structuré : documents JSON et graphes avec schémas clairs :
{
"entity": "PurchaseOrder",
"id": "PO-2026-1783",
"vendor": {"name": "Acme", "id": "V-882"},
"line_items": [
{"sku": "X12", "qty": 5, "unit_price": 49.00}
],
"approval_policy": {
"threshold": 10000,
"requires_dual_signoff": true,
"exceptions": ["emergency"]
},
"provenance": {"source": "ERP", "version": "v14.2", "ingested_at": "2026-02-06"}
}
Ce contexte schématisé donne aux agents une logique lisible par machine et une traçabilité pour l'audit, au lieu de s'appuyer sur des fragments de texte fragiles.
Ensemble, ils permettent une récupération déterministe : router par cluster ou voisinage de graphe, puis assembler un contexte minimal et pertinent. Patterns opérationnels dans Weaviate best practices for hybrid search.

Les agents échouent quand ils essaient de « réfléchir » sur des dumps bruts et bruités. Le runtime doit ressembler à :
# Pseudocode pour récupération hybride + assemblage
plan = planner.make_plan(user_query)
results = []
for hop in plan.hops:
dense = dense_index.search(hop.query, k=10)
sparse = sparse_index.search(hop.query, k=10, filter=plan.filters)
graph_ctx = graph.walk(hop.entities, depth=2)
gated = gate.by_provenance(dense + sparse + graph_ctx)
stitched = stitch.compact(gated, budget_tokens=1200)
results.append(stitched)
final = synthesize(results, tools=plan.tools)
return final

Ce design aide à comparer trois patterns de récupération. Garder petit et reproductible.
Hypothèses : 50K documents (politiques, tickets, specs) ; 75 requêtes d'évaluation avec ground truth pour 40 ; même LLM ; parité matérielle ; reranker si applicable. Rapporter latence médiane p50/p90 et qualité via EM/F1 ou LLM-juge documenté.
| Pattern | Stack de récupération | Caractéristiques attendues |
|---|---|---|
| RAG naïf | Dense uniquement | Rapide, cohérence globale plus faible ; difficultés sur questions cross-doc |
| RAG affiné | Dense + sparse + reranker | Latence modérée, meilleure précision sur IDs et termes de politique |
| Couche de contexte | Hybride + graph + assemblage + résumés | Latence p50 un peu plus élevée mais p90 plus serrée ; réponses globales plus stables |
Interprétation : le RAG affiné corrige beaucoup de lacunes faciles ; la couche de contexte brille sur les tâches cross-document et multi-étapes, avec latence de queue plus prévisible grâce au routage et aux caches.
Supposons que vous construisez un agent d'achat qui doit appliquer des politiques d'approbation tout en assemblant des devis fournisseurs. Vous ingérez des exports ERP, des PDF de contrats, des approbations Slack et des résumés email. Le pipeline mappe tout à un schéma commun : PurchaseOrder, Vendor, Policy, Exception. Vous enrichissez avec du entity linking pour que chaque PurchaseOrder connaisse son Vendor et ses nœuds Policy applicables. Puis vous construisez un index dense pour le recall sémantique, un index sparse pour les IDs et termes juridiques, et un index graphe pour les chemins Policy → Exception → Approver.
Dans ce setup, une boucle d'orchestration route une requête « Pouvons-nous approuver PO‑2026‑1783 aujourd'hui ? » via : lookup sparse de l'ID PO, parcours de graphe de cette PO vers sa Policy et exceptions, et récupération dense des notes récentes d'approbateurs. Le stitcher compacte le tout en un bundle de 1,2K tokens et l'agent produit une réponse courte et citée avec décision d'approbation et liens vers la traçabilité.
Une plateforme comme puppyone peut aider car elle stocke le savoir en Know‑How structuré (JSON/graphe) et supporte l'indexation hybride sur texte et structure, permettant des patterns de récupération déterministes et des traces audivables sans dépendre du scraping de texte fragile.
Traitez le contexte comme du code. Chaque changement doit avoir traçabilité, revue et tests. Maintenir schémas versionnés, politiques d'accès et suites d'évaluation. Avant les déploiements : exécuter contrôles de fidélité de récupération et tests au niveau des tâches ; capturer traces explicables et garder le rollback prêt. Si vos agents touchent des données régulées ou sensibles, alignez vos processus sur le cadre NIST AI Risk Management. Pour l'interop : Model Context Protocol.
Commencez avec un RAG affiné si votre problème est local et à faible risque. Si vous voyez des questions cross-doc, des besoins de gouvernance ou des corpus volatils, planifiez un pilote de couche de contexte centré sur un workflow. Construisez d'abord le Know‑How structuré ; l'indexation hybride et l'orchestration deviennent bien plus simples une fois les schémas stables. Gardez l'évaluation serrée et humaine : tester des tâches réelles, logger les traces, lier les améliorations aux SLO métier.
R : Non. Démarrez avec dense + sparse ; ajoutez un graphe quand apparaissent des lacunes de raisonnement cross-document ou de résumé global.
R : Découpez par unités sémantiques liées à votre schéma (entités, procédures), pas par comptage fixe de tokens. Laissez le reste aux rerankers et résumés.
R : Oui, mais vous le paierez. Ajoutez traçabilité légère et contrôles d'accès dès le premier jour pour que l'évaluation et les rollbacks soient possibles.