深度研究型 Agentic RAG 系统：架构、机制与工程实践

2025年10月27日Ollie @puppyone

摘要

本文介绍一种面向复杂任务的 Agentic RAG（检索增强生成）系统，其核心能力在于通过多轮迭代检索、动态研究规划与结构化报告生成，在 2–4 分钟内完成传统需数小时的人类专家级研究任务。系统在综合基准 Humanity’s Last Exam 上达到 21.1% 的准确率，在事实性问答基准 SimpleQA 上准确率达 93.9%。文章解析其技术流程、适用边界与部署挑战，并为开源实现提供参考路径。

问题背景

标准 RAG 系统通常采用“单次检索 + 单次生成”模式，适用于事实性问答，但在处理需多跳推理、跨源验证或归纳综合的复杂查询时表现不足。

例如，“分析某新兴技术的商业化前景”不仅需要获取技术原理、专利布局、市场动态，还需横向对比竞品、评估政策风险，并整合为可操作的结论。

为应对这类高阶任务，一种新型 Agentic RAG 架构 被提出：系统不再被动响应，而是主动规划研究路径，模拟人类专家的研究行为，最终输出结构化报告。

方法概述

该系统的工作流程分为三个阶段：

1. 自主研究与推理（Research with Reasoning）

系统具备搜索与代码执行能力，能够：

在初始阶段生成多个子问题；
迭代执行 搜索 → 阅读文档 → 评估信息缺口 → 调整后续策略；
在必要时调用代码解释器（如解析表格、计算指标）以增强事实验证。

2. 报告合成（Report Writing）

在完成信息收集后，系统对数百份来源进行去重、分类、归纳，生成逻辑清晰、引用可溯的结构化报告，而非简单摘要。

3. 结果导出

支持导出为 PDF 或文档格式，便于存档或协作。

效率表现：整个过程平均耗时约 3 分钟，显著优于人工研究效率。

关键技术细节

1. 动态研究规划器

使用大语言模型作为“研究代理”，根据当前知识状态动态生成下一步检索关键词；
若发现信息冲突或覆盖不足，会主动扩展数据源或深入特定子领域；
示例：初始查询“某公司技术优势”未覆盖竞品对比，则自动生成“vs 主要竞争对手”类子查询。

2. 多源混合检索

并行调用多个现代搜索引擎（如支持 Model Context Protocol (MCP) 的服务）；
对关键事实（如财务数据、技术参数）进行多源交叉验证；
引入置信度机制，低可信度内容会被降权或排除。

3. 结构化输出生成

报告按逻辑模块组织（背景、方法、核心发现、结论）；
每项主张附带来源链接，支持追溯；
支持表格、对比列表等富格式，提升可读性与实用性。

性能评估

系统在两项权威基准上表现突出：

基准	描述	准确率
Humanity’s Last Exam	涵盖 100+ 学科、3,000+ 问题的综合能力测试	21.1%
SimpleQA	测试事实性问答能力	93.9%

在 Humanity’s Last Exam 上，性能显著优于 o1、DeepSeek-R1、Gemini Thinking 等主流模型；
90% 以上的任务可在 3 分钟内完成，兼顾深度与效率。

局限性与工程挑战

尽管效果显著，该架构在实际部署中仍面临以下挑战：

高计算成本：单次任务涉及数十次检索 API 调用与多次 LLM 推理，成本与任务复杂度近似成正比；
延迟限制：2–4 分钟响应时间不适合实时对话或低延迟场景；
依赖外部数据质量：若检索源包含噪声、偏见或过时信息，推理链可能被污染；
缺乏用户干预机制：当前为全自动流程，无法在中途修正研究方向或优先级。

未来改进方向包括：

引入用户反馈闭环；
支持部分结果预览；
优化中间结果缓存复用策略。

开源实现建议

如果您希望快速构建具备上述能力的深度研究系统，推荐使用 puppyone 推出的开源产品 Deep Wide Research Agent：

基于 Model Context Protocol (MCP) 构建，支持即插即用的数据源与工具集成；
提供直观的 深度（Deep） × 广度（Wide）控制平面，用户可通过两个参数灵活调节研究复杂度与覆盖范围；
内置资源消耗估算逻辑，帮助开发者预判成本；
支持 完全私有化部署，保障企业敏感数据不出域；
兼容 OpenAI、Claude、DeepSeek、本地 LLM 等多种模型后端，满足合规与性能双重需求。

应用场景：金融分析、市场调研、技术评估、健康咨询、旅行规划等，可作为组织内部的“自动化研究助理”。
👉 体验地址：https://www.deepwideresearch.com

FAQ

Q1：这种系统和普通问答模型有何本质区别？

普通模型依赖单次上下文生成答案，而该系统具备自主规划能力，能主动识别信息缺口、迭代检索、交叉验证，并输出结构化报告。

Q2：是否必须依赖互联网搜索？

是的，当前架构依赖实时网络获取最新信息。若需处理私有知识（如企业文档），需额外集成内部知识库，并确保检索模块支持混合源（公网 + 私有）。Deep Wide Research Agent 支持本地知识库接入。

Q3：3 分钟的延迟能否压缩？

可通过降低广度（减少数据源数量）、启用缓存、并行化检索等方式优化，但深度推理本身存在计算下限。对延迟敏感场景，建议采用“快速模式 + 人工复核”组合策略。

Agentic RAG

构建可调可扩展的Agentic RAG：从 Deep Research 到 Open Deep Wide Research

This article analyzes OpenAI’s Deep Research as a paradigm-shifting agentic RAG system and introduces Open Deep Wide Research (ODWR)—an open-source, MCP-compatible, self-hostable framework that replicates its multi-step research capabilities while offering fine-grained control over depth, breadth, and latency. Designed for developers and enterprises, ODWR addresses key limitations of closed-agent systems through modular tool integration, hybrid retrieval, and runtime policy tuning.

Ollie @PuppyAgenrt2025年10月27日

Agentic RAG

Open Deep Wide Research：面向大规模信息采集的通用型多智能体协作架构

This article explores a novel Agentic RAG architecture that leverages dedicated cloud virtual machines and generic multi-agent collaboration to automate wide-scale research tasks—such as cross-entity comparisons or market surveys—while addressing engineering challenges in latency, resource scheduling, and cost predictability.

Ollie @puppyone2025年10月26日

Agentic RAG

2026 年如何构建可定制聊天机器人：零代码提升用户互动

探索如何在 2026 年利用 Agentic RAG 和企业级上下文构建零代码、可定制的聊天机器人——无需编写一行代码，即可提升用户互动、降低支持成本并部署企业级 AI 智能体。

Ollie @puppyone2025年12月30日

深度研究型 Agentic RAG 系统：架构、机制与工程实践

摘要

问题背景

方法概述

1. 自主研究与推理（Research with Reasoning）

2. 报告合成（Report Writing）

3. 结果导出

关键技术细节

1. 动态研究规划器

2. 多源混合检索

3. 结构化输出生成

性能评估

局限性与工程挑战

开源实现建议

FAQ

Q1：这种系统和普通问答模型有何本质区别？

Q2：是否必须依赖互联网搜索？

Q3：3 分钟的延迟能否压缩？

相关文章

构建可调可扩展的Agentic RAG：从 Deep Research 到 Open Deep Wide Research

Open Deep Wide Research：面向大规模信息采集的通用型多智能体协作架构

2026 年如何构建可定制聊天机器人：零代码提升用户互动