Visão Geral
Este artigo apresenta um sistema de RAG Agêntico (Geração Aumentada por Recuperação) projetado para tarefas complexas. Com funcionalidades centrais como busca iterativa múltipla, planejamento dinâmico de pesquisa e geração de relatórios estruturados, este sistema conclui em 2 a 4 minutos tarefas de pesquisa que antes levariam horas para especialistas humanos. Ele alcançou uma taxa de acerto de 21,1% no benchmark abrangente Humanity’s Last Exam e 93,9% no benchmark de perguntas e respostas factuais SimpleQA. Neste artigo, explicamos seu fluxo técnico, escopo de aplicação, desafios de implementação e apresentamos um caminho para sua implementação em código aberto.
Contexto
Os sistemas RAG padrão geralmente adotam um processo único de "uma busca + uma geração", que é adequado para perguntas e respostas factuais, mas insuficiente para consultas complexas que exigem raciocínio em múltiplos estágios, verificação cruzada de múltiplas fontes, ou integração e resumo de informações.
Por exemplo, uma tarefa como "Analise as perspectivas de comercialização de uma nova tecnologia emergente" exige não apenas obter informações sobre os princípios técnicos, portfólio de patentes e tendências de mercado, mas também comparar com produtos concorrentes, avaliar riscos regulatórios e integrar tudo isso em uma conclusão prática.
Para lidar com essas tarefas avançadas, foi proposta uma nova arquitetura de RAG Agêntico. Em vez de responder passivamente, este sistema cria planos de pesquisa de forma autônoma, emula o comportamento de pesquisa de especialistas humanos e, por fim, gera um relatório estruturado.
Visão Geral da Abordagem
O fluxo de trabalho deste sistema consiste nas três fases a seguir.
1. Pesquisa e Raciocínio Autônomos (Research with Reasoning)
O sistema possui capacidades de busca e execução de código, permitindo as seguintes ações:
- Gerar múltiplas subperguntas na fase inicial.
- Executar um ciclo iterativo de Busca → Leitura de documentos → Avaliação de lacunas de informação → Ajuste da próxima estratégia.
- Chamar um interpretador de código quando necessário (para análise de tabelas, cálculo de métricas, etc.) para reforçar a verificação de fatos.
2. Elaboração de Relatórios (Report Writing)
Após a coleta de informações, o sistema remove duplicatas, classifica e resume as informações de centenas de fontes, gerando um relatório estruturado, lógico e com citações rastreáveis, em vez de um simples resumo.
3. Exportação de Resultados
Suporta a exportação em formatos como PDF e documentos, facilitando o arquivamento e a colaboração.
Eficiência: O tempo médio de todo o processo é de aproximadamente 3 minutos, superando significativamente a eficiência da pesquisa manual.
Principais Detalhes Técnicos
1. Planejador de Pesquisa Dinâmico
- Utiliza um modelo de linguagem grande (LLM) como um "agente de pesquisa" para gerar dinamicamente as próximas palavras-chave de busca com base no estado atual do conhecimento.
- Se forem detectadas contradições ou falta de cobertura nas informações, ele expande autonomamente as fontes de dados ou aprofunda a pesquisa em subáreas específicas.
- Exemplo: Se a consulta inicial "vantagens tecnológicas de uma empresa X" não cobrir a comparação com concorrentes, ele gera automaticamente uma subconsulta como "vs. principais concorrentes".
- Consulta múltiplos motores de busca atualizados em paralelo (como serviços que suportam o Model Context Protocol (MCP)).
- Realiza verificação cruzada em múltiplas fontes para fatos importantes (dados financeiros, parâmetros técnicos, etc.).
- Implementa um mecanismo de pontuação de confiança, onde conteúdo com baixa confiabilidade tem seu peso reduzido ou é descartado.
3. Geração de Saída Estruturada
- O relatório é organizado em módulos lógicos (contexto, abordagem, principais descobertas, conclusão).
- Cada afirmação é acompanhada por um link para a fonte, garantindo a rastreabilidade.
- Suporta formatos ricos, como tabelas e listas comparativas, melhorando a legibilidade e a utilidade prática.
Avaliação de Desempenho
Este sistema demonstrou um desempenho excelente em dois benchmarks de renome.
| Benchmark | Descrição | Taxa de Acerto |
|---|
| Humanity’s Last Exam | Um teste de capacidade abrangente com mais de 100 áreas acadêmicas e 3.000 problemas | 21,1% |
| SimpleQA | Testa a capacidade de responder a perguntas factuais | 93,9% |
- No Humanity’s Last Exam, o desempenho superou significativamente modelos de ponta como o1, DeepSeek-R1 e Gemini Thinking.
- Consegue concluir mais de 90% das tarefas em menos de 3 minutos, equilibrando profundidade e eficiência na pesquisa.
Limitações e Desafios de Engenharia
Embora esta arquitetura demonstre uma eficácia notável, sua implementação prática enfrenta os seguintes desafios:
- Alto custo computacional: Uma única tarefa pode exigir dezenas de chamadas de API de busca e múltiplas inferências de LLM, com o custo sendo aproximadamente proporcional à complexidade da tarefa.
- Restrições de latência: Um tempo de resposta de 2 a 4 minutos não é adequado para diálogos em tempo real ou cenários que exigem baixa latência.
- Dependência da qualidade dos dados externos: Se as fontes de busca contiverem ruído, viés ou informações desatualizadas, a cadeia de raciocínio pode ser contaminada.
- Falta de um mecanismo de intervenção do usuário: Atualmente, o processo é totalmente automatizado, não permitindo corrigir a direção ou as prioridades da pesquisa em andamento.
Direções para melhorias futuras incluem:
- Introdução de um ciclo de feedback do usuário.
- Suporte a uma função de pré-visualização de resultados parciais.
- Otimização da estratégia de reutilização de cache para resultados intermediários.
Sugestões para Implementação em Código Aberto
Se você deseja construir rapidamente um sistema de pesquisa avançado com as capacidades descritas acima, recomendamos o uso do produto de código aberto Deep Wide Research Agent, oferecido pela puppyone.
- Construído com base no Model Context Protocol (MCP), permite integrar fontes de dados e ferramentas de forma plug-and-play.
- Oferece um painel de controle intuitivo de Profundidade (Deep) × Amplitude (Wide), permitindo que os usuários ajustem com flexibilidade a complexidade e a cobertura da pesquisa com apenas dois parâmetros.
- Inclui uma lógica de estimativa de consumo de recursos para ajudar os desenvolvedores a prever custos.
- Suporta a implantação em ambientes totalmente privados, garantindo que dados confidenciais da empresa não vazem para o exterior.
- É compatível com diversos back-ends de modelo, como OpenAI, Claude, DeepSeek e LLMs locais, atendendo tanto a requisitos de conformidade quanto de desempenho.
Cenários de aplicação: Pode ser utilizado como um "assistente de pesquisa automatizado" dentro de organizações para análise financeira, pesquisa de mercado, avaliação de tecnologia, consultoria de saúde, planejamento de viagens, entre outros.
👉 Veja o site de demonstração aqui: https://www.deepwideresearch.com
FAQ
Q1: Qual é a diferença fundamental entre este sistema e os modelos de perguntas e respostas comuns?
Modelos comuns geram respostas com base em um único contexto, enquanto este sistema possui capacidade de planejamento autônomo, identifica ativamente lacunas de informação, realiza buscas e verificações cruzadas iterativamente e gera um relatório estruturado.
Q2: A dependência da busca na internet é obrigatória?
Sim, a arquitetura atual depende da busca na web em tempo real para obter as informações mais recentes. Se for necessário lidar com conhecimento privado (como documentos corporativos), uma base de conhecimento interna deve ser integrada separadamente, e o módulo de busca deve ser configurado para suportar fontes híbridas (web pública + privada). O Deep Wide Research Agent suporta a conexão com bases de conhecimento locais.
Q3: A latência de 3 minutos pode ser reduzida?
É possível otimizar reduzindo a amplitude (número de fontes de dados), ativando o cache ou paralelizando as buscas, mas o raciocínio profundo em si tem um limite inferior de tempo computacional. Para cenários sensíveis à latência, recomendamos uma estratégia combinada de "modo rápido + revisão manual".