Cet article présente un système de RAG agentique (Génération Augmentée par la Récupération) conçu pour des tâches complexes. Sa capacité principale réside dans sa faculté à accomplir en seulement 2 à 4 minutes des tâches de recherche qui prendraient traditionnellement des heures à un expert humain, grâce à une récupération itérative en plusieurs passes, une planification dynamique de la recherche et la génération de rapports structurés. Le système atteint une précision de 21,1 % sur le benchmark complet Humanity’s Last Exam et de 93,9 % sur le benchmark de questions-réponses factuelles SimpleQA. Cet article détaille son flux de travail technique, ses limites opérationnelles et les défis de son déploiement, tout en fournissant une voie de référence pour une implémentation open source.
Les systèmes RAG standards utilisent généralement un modèle de « récupération unique + génération unique ». Cette approche convient pour répondre à des questions factuelles, mais se révèle insuffisante pour traiter des requêtes complexes qui exigent un raisonnement en plusieurs étapes (multi-hop), une validation croisée des sources ou une synthèse inductive.
Par exemple, une requête comme « analyser les perspectives de commercialisation d'une technologie émergente » nécessite non seulement de recueillir des informations sur ses principes techniques, le paysage des brevets et la dynamique du marché, mais aussi de mener une comparaison horizontale des concurrents, d'évaluer les risques politiques et d'intégrer le tout en conclusions exploitables.
Pour répondre à ces tâches de haut niveau, une nouvelle architecture de RAG agentique a été proposée. Au lieu de répondre passivement, le système planifie activement son parcours de recherche, simule le comportement d'un expert humain et produit finalement un rapport structuré.
Le flux de travail du système se divise en trois étapes :
Le système dispose de capacités de recherche et d'exécution de code, ce qui lui permet de :
Une fois la collecte d'informations terminée, le système dédoublonne, catégorise et synthétise des centaines de sources pour générer un rapport structuré, logiquement cohérent et citable, et non un simple résumé.
Prend en charge l'exportation aux formats PDF ou document pour faciliter l'archivage et la collaboration.
Efficacité : L'ensemble du processus prend en moyenne environ 3 minutes, une amélioration significative par rapport à l'efficacité de la recherche manuelle.
Le système démontre des performances exceptionnelles sur deux benchmarks de référence :
| Benchmark | Description | Précision |
|---|---|---|
| Humanity’s Last Exam | Un test complet couvrant plus de 100 sujets et plus de 3 000 questions | 21,1 % |
| SimpleQA | Teste les capacités de réponse à des questions factuelles | 93,9 % |
Malgré ses résultats impressionnants, cette architecture fait face aux défis suivants en déploiement pratique :
Les pistes d'amélioration futures incluent :
Si vous souhaitez construire rapidement un système de recherche approfondie avec les capacités décrites ci-dessus, nous vous recommandons d'utiliser le produit open source Deep Wide Research Agent de puppyone :
Cas d'utilisation : Analyse financière, étude de marché, évaluation technologique, conseil en santé, planification de voyage, etc. Il peut servir d'« assistant de recherche automatisé » au sein d'une organisation. 👉 Essayez-le : https://www.deepwideresearch.com
Les modèles standards s'appuient sur un contexte unique pour générer une réponse. En revanche, ce système dispose de capacités de planification autonome, lui permettant d'identifier de manière proactive les lacunes informationnelles, d'effectuer une récupération itérative, de valider les faits et de produire un rapport structuré.
Oui, l'architecture actuelle s'appuie sur le web en direct pour obtenir les informations les plus récentes. Pour traiter des connaissances privées (comme des documents d'entreprise), il faudrait intégrer une base de connaissances interne et s'assurer que le module de récupération prend en charge les sources hybrides (web public + privé). Le Deep Wide Research Agent prend en charge la connexion aux bases de connaissances locales.
Elle peut être optimisée en réduisant l'étendue (c'est-à-dire le nombre de sources de données), en activant la mise en cache et en parallélisant la récupération. Cependant, le processus de raisonnement profond lui-même a une limite de calcul inférieure. Pour les scénarios sensibles à la latence, une stratégie combinée d'un « mode rapide » et d'une révision manuelle est recommandée.