Em 2025, a Geração Aumentada por Recuperação (RAG) está passando por uma mudança de paradigma, de "pipelines estáticos" para "agentes autônomos". O Deep Research da OpenAI demonstra o potencial dessa direção, comprimindo tarefas de pesquisa complexas em minutos por meio de planejamento multi-etapas, uso de ferramentas e raciocínio dinâmico. No entanto, sua arquitetura fechada e estratégias fixas têm dificuldade em atender às demandas empresariais por controlabilidade, eficiência de custos e soberania de dados. Este artigo apresenta o Open Deep Wide Research (ODWR) — um framework RAG Agêntico de código aberto, compatível com MCP, que suporta o ajuste de políticas em tempo de execução. Ele visa replicar as capacidades centrais do Deep Research, ao mesmo tempo que oferece aos desenvolvedores controle granular sobre profundidade, largura e latência.
Os sistemas RAG tradicionais usam um pipeline linear de "recuperar → reclassificar → gerar", que é adequado para responder a perguntas factuais, mas falha nos seguintes cenários:
O Deep Research da OpenAI aborda esses problemas ao introduzir uma arquitetura agêntica: ele decompõe tarefas em sub-objetivos, chama ferramentas de navegador e Python, ajusta estratégias em tempo real e gera relatórios estruturados com citações. Esse design valida a viabilidade do RAG Agêntico, mas também expõe limitações importantes: modelos de caixa-preta, ausência de toolchains personalizados e falta de interfaces para agendamento de recursos.
Analisamos as descrições técnicas públicas do Deep Research (OpenAI, 2025) e extraímos três princípios de design reutilizáveis:
Esses mecanismos podem ser padronizados e encapsulados por meio do Model Context Protocol (MCP). O MCP define os protocolos para passagem de contexto, sincronização de estado e recuperação de erros entre agentes e ferramentas, permitindo que diferentes componentes (como LLMs, crawlers e bancos de dados) sejam plug-and-play.
Com base nesses insights, desenvolvemos o Open Deep Wide Research (ODWR), um sistema RAG Agêntico de código aberto e auto-hospedável com as seguintes características:
Os usuários podem especificar em tempo de execução:
Exemplo: Um modo leve (Profundidade=2, Largura=10, Latência=2min) é adequado para comparações de produtos; um modo profundo (Profundidade=8, Largura=50, Latência=20min) é usado para revisões de literatura científica.
| Dimensão | OpenAI Deep Research | Open Deep Wide Research |
|---|---|---|
| Acessibilidade | Limitado a assinantes do ChatGPT | Código aberto, auto-hospedável |
| Extensão de Ferramentas | Fechada (apenas as fornecidas pela OpenAI) | Compatível com MCP, qualquer ferramenta é conectável |
| Granularidade de Controle | Política fixa | Ajustável por três parâmetros: Profundidade/Largura/Latência |
| Soberania de Dados | Depende da nuvem da OpenAI | Suporta bases de conhecimento privadas e execução local |
| Exportação de Saída | Apenas dentro do ChatGPT | Suporta exportação via API, JSON e Markdown |
Integramos uma versão simplificada do ODWR na plataforma puppyone, permitindo que os usuários criem rapidamente aplicações de RAG Agêntico de nível empresarial:
O puppyone oferece uma avaliação gratuita e um plano Profissional para colaboração em equipe e cenários de alta concorrência. Visite https://www.puppyone.ai/ para iniciar sua jornada com o RAG Agêntico.
P1: O ODWR pode substituir o Deep Research? Funcionalmente, ele pode cobrir mais de 80% de seus casos de uso e é especialmente adequado para empresas que exigem privacidade de dados, controle de custos ou ferramentas personalizadas. No entanto, para tarefas extremamente complexas que dependem dos modelos proprietários da OpenAI (como o o3), o desempenho pode ser ligeiramente inferior.
P2: É necessário ter conhecimento de programação para usá-lo? Usuários não técnicos podem configurar modelos de tarefas por meio da interface gráfica do puppyone, enquanto desenvolvedores podem personalizar profundamente o comportamento do agente via API do MCP.
P3: Como posso controlar os custos? O ODWR permite que você defina o consumo máximo de tokens, limites de chamadas de ferramentas e limites de tempo de espera (timeout). Ele também suporta a troca para modelos mais leves (como o4-mini ou DeepSeek-Lite) para reduzir significativamente os custos de inferência.