Open Deep Wide Research: Uma Arquitetura de Colaboração entre Agentes de Propósito Geral para Coleta de Informações em Larga Escala

26 de outubro de 2025Ollie @puppyone

Resumo

Um novo paradigma de pesquisa em IA automatiza tarefas de coleta de informações de alta abrangência (como pesquisa horizontal em centenas de entidades) atribuindo uma máquina virtual dedicada na nuvem para cada sessão de usuário, dentro da qual múltiplos agentes de propósito geral executam subtarefas em paralelo. Essa arquitetura se baseia em um ambiente de execução Turing-completo e um mecanismo de colaboração multiagente agnóstico a papéis, oferecendo alta flexibilidade. No entanto, ainda enfrenta desafios de engenharia no controle de latência, agendamento de recursos e previsibilidade de custos.

Contexto do Problema

Sistemas tradicionais de Geração Aumentada por Recuperação (RAG) geralmente seguem um fluxo linear: Entrada do Usuário → Recuperação → Geração. Embora eficaz para perguntas e respostas pontuais (Q&A), esse design é significativamente limitado ao lidar com tarefas que exigem validação em múltiplas rodadas, comparação estruturada ou exploração em diversas fontes heterogêneas (por exemplo, "Analisar as trajetórias de carreira pós-doutorado de PhDs dos departamentos de ciência da computação das 50 melhores universidades do mundo"). Os principais gargalos incluem:

  • Falta de capacidades proativas de exploração e decomposição de tarefas na fase de recuperação.
  • Incapacidade de planejar ou retroceder dinamicamente durante a fase de geração.
  • O processo geral não é interrompível nem extensível, dificultando o suporte a tarefas de longa duração.

Para superar essas limitações, a nova geração de sistemas modela tarefas de pesquisa em larga escala como um problema de colaboração de agentes distribuídos.

Visão Geral do Método

O design central consiste em atribuir uma máquina virtual (VM) dedicada na nuvem para cada sessão de usuário. Essa VM fornece um sistema operacional completo, acesso à rede e um ambiente de execução, formando uma sandbox Turing-completa. Dentro dessa sandbox, o sistema inicia dinamicamente múltiplos subagentes. Cada um é uma instância de propósito geral e totalmente funcional (em vez de ter um papel predefinido como "Pesquisador" ou "Validador") com as seguintes capacidades:

  • Iniciar solicitações HTTP ou chamar APIs externas de forma independente.
  • Executar scripts para analisar dados não estruturados de páginas web, PDFs, tabelas, etc.
  • Chamar cadeias de ferramentas integradas (por exemplo, navegadores headless, extratores de documentos).
  • Trocar resultados intermediários com outros subagentes.

A decomposição de tarefas é gerada dinamicamente por um controlador principal. Por exemplo, para "pesquisar o ecossistema de ferramentas de IA generativa", o sistema pode dividi-lo automaticamente em:

  1. Obter uma lista de ferramentas de múltiplas plataformas (GitHub, Product Hunt, páginas agregadoras oficiais).
  2. Para cada ferramenta, extrair concorrentemente a documentação, o histórico de versões e as avaliações de usuários.
  3. Extrair métricas-chave (por exemplo, status de código aberto, suporte a API, modelo de precificação).
  4. Alinhar entidades e gerar uma tabela de comparação estruturada.

Como todos os subagentes compartilham o mesmo ambiente de execução e possuem capacidades de propósito geral, a lógica da tarefa não é restringida por papéis predefinidos, o que aumenta significativamente a generalização.

Principais Detalhes Técnicos

1. Máquinas Virtuais como Unidades de Execução

  • Cada sessão tem uso exclusivo de uma VM Linux leve (possivelmente baseada em tecnologia de microvirtualização como o Firecracker).
  • Pré-instalada com runtimes comuns (Python, Node.js), bibliotecas de parsing (BeautifulSoup, PyPDF2) e ferramentas de automação de navegador.
  • O tráfego de saída da rede é rotacionado através de um pool de proxies para reduzir o risco de bloqueio por medidas anti-scraping.
  • Todas as operações são realizadas em um ambiente isolado, garantindo a segurança e os limites dos dados.

2. Comunicação e Agendamento Multiagente

  • Os subagentes trocam dados via memória compartilhada ou um broker de mensagens leve (como o Redis Pub/Sub).
  • Resultados intermediários são persistidos em um formato estruturado (por exemplo, JSON ou JSON-LD) para facilitar a agregação e validação subsequentes.
  • O controlador principal mantém um grafo de dependência de tarefas (DAG), suportando agendamento dinâmico, novas tentativas em caso de falha e cache de resultados.

3. Pipeline de Processamento de Dados

Tomemos como exemplo a "análise de empresas da Fortune 500":

  • Fase de Descoberta: Chamar motores de busca ou bancos de dados públicos para obter uma lista de empresas.
  • Fase de Coleta: Cada subagente é responsável por várias empresas, fazendo scraping de sites oficiais, PDFs de relatórios anuais e comunicados de imprensa.
  • Fase de Análise (Parsing): Usar correspondência baseada em regras, OCR, ou modelos multimodais para extrair campos-chave (por exemplo, receita, número de funcionários, CEO).
  • Fase de Alinhamento: Realizar a resolução de entidades com base em um identificador unificado (como um ticker de ação) para construir uma tabela de conhecimento padronizada.

Este processo é altamente intensivo em I/O, exigindo muito das capacidades de processamento concorrente e da largura de banda da rede da VM.

Limitações e Desafios de Escalabilidade

Limitações Atuais

  • Tempo de Resposta Incontrolável: O tempo de conclusão da tarefa é determinado pela subtarefa mais lenta, sem mecanismo para timeouts, circuit breaking ou retorno de resultados parciais.
  • Custos de Recursos Não Transparentes: Nenhum modelo de consumo de recursos é fornecido com base na escala da tarefa, dificultando a previsão de despesas pelos usuários.
  • Gargalo de Escalabilidade em Nó Único: Todos os subagentes rodam na mesma VM, e a contenção por CPU/memória pode levar a instabilidades de desempenho (jitter).
  • Forte Dependência da Internet Pública: Não consegue acessar diretamente bases de conhecimento privadas ou fontes de dados internas.

Desafios de Implantação em Larga Escala

  • Latência de Partida a Frio (Cold-Start): A criação e inicialização da VM geralmente levam de vários a dezenas de segundos, afetando a experiência do usuário.
  • Sobrecarga de Agendamento Concorrente: Quando um grande número de subtarefas é executado simultaneamente, o gerenciamento de processos e a comunicação podem se tornar gargalos.
  • Custos de Armazenamento: Se os resultados intermediários não forem limpos prontamente, uma grande quantidade de dados temporários se acumulará.
  • Segurança e Conformidade (Compliance): Uma sandbox que executa código arbitrário dinamicamente requer auditoria rigorosa, especialmente em ambientes corporativos.

Direções de Melhoria

  • Introduzir parâmetros de controle de profundidade e abrangência: Permitir que os usuários limitem explicitamente o paralelismo máximo (abrangência) e o número de passos de raciocínio (profundidade).
  • Adotar uma estratégia de execução em camadas: Priorizar subtarefas de alto valor, enquanto tarefas de baixa prioridade podem ser rebaixadas ou ignoradas.
  • Suportar acesso a fontes de dados híbridas: Combinar scraping da web pública com recuperação de banco de dados vetorial privado.
  • Fornecer uma API de estimativa de custos: Prever o consumo de recursos para a configuração atual com base em estatísticas de tarefas históricas.

Se você está procurando uma solução de RAG Agêntico pronta para produção, auto-hospedável e com controle granular, o puppyone oferece um caminho de implementação pronto para uso. Construído sobre o protocolo MCP, o puppyone suporta ajuste dinâmico de profundidade e abrangência, troca de back-end entre múltiplos modelos e integração transparente com bases de conhecimento privadas, tornando-o adequado para uma variedade de cenários, desde Q&A de atendimento ao cliente até análise inteligente de nível empresarial. Visite https://www.puppyone.ai/ para aprender como implantar seu próprio agente de pesquisa controlável em minutos.

FAQ

P1: Qual é a diferença fundamental entre esta arquitetura e os sistemas multiagente tradicionais?
R: Sistemas tradicionais dependem de papéis predefinidos (por exemplo, "Planejador", "Executor"), enquanto nesta arquitetura, todos os subagentes são instâncias de propósito geral que podem decidir autonomamente seu curso de ação. Isso torna a estrutura da tarefa mais flexível e aprimora as capacidades de generalização.

P2: Um sistema semelhante pode ser implantado on-premises ou em uma nuvem privada?
R: Sim, mas você precisaria lidar com o agendamento da virtualização, o proxy de rede, a segurança da sandbox e a coordenação de tarefas por conta própria. Uma alternativa mais leve é usar contêineres (como o Docker) em vez de VMs completas e implementar a comunicação entre agentes por meio de uma fila de mensagens.

P3: Quais são os principais gargalos de desempenho em cenários de alta concorrência?
R: Os principais gargalos incluem a latência de partida a frio (cold-start) da VM, a vazão (throughput) do agendador de subtarefas e a sobrecarga de serialização da comunicação entre agentes. As técnicas de otimização incluem o uso de um pool pré-aquecido, filas de tarefas assíncronas e o cache/reutilização de resultados intermediários.