Cómo construir un RAG agéntico, escalable y ajustable: de Deep Research a Open Deep Wide Research

27 de octubre de 2025Ollie @PuppyAgenrt

Resumen

En 2025, la Generación Aumentada por Recuperación (RAG) está experimentando un cambio de paradigma, pasando de los "pipelines estáticos" a los "agentes autónomos". Deep Research de OpenAI demuestra el potencial de esta dirección, comprimiendo tareas de investigación complejas en cuestión de minutos mediante la planificación en múltiples pasos, el uso de herramientas y el razonamiento dinámico. Sin embargo, su arquitectura cerrada y sus estrategias fijas tienen dificultades para satisfacer las demandas empresariales de controlabilidad, eficiencia de costes y soberanía de los datos. Este artículo presenta Open Deep Wide Research (ODWR), un framework de RAG agéntico de código abierto, compatible con MCP y que permite el ajuste de políticas en tiempo de ejecución. Su objetivo es replicar las capacidades principales de Deep Research, al tiempo que ofrece a los desarrolladores un control detallado sobre la profundidad, la amplitud y la latencia.

Contexto del problema: los cuellos de botella evolutivos de RAG

Los sistemas RAG tradicionales utilizan un pipeline lineal de "recuperar → reclasificar → generar", que es adecuado para responder a preguntas factuales, pero se queda corto en los siguientes escenarios:

Razonamiento en múltiples saltos (multi-hop): Por ejemplo, "Compare las estrategias de código abierto de tres empresas de IA entre 2024 y 2025 y su impacto en el ecosistema de desarrolladores".
Fusión de datos heterogéneos: Requiere analizar simultáneamente páginas web, informes técnicos en PDF e informes CSV subidos por el usuario.
Ajuste dinámico de tareas: Cuando los resultados de la recuperación inicial son de baja calidad, no puede corregir de forma autónoma las consultas ni cambiar las fuentes de datos.

Deep Research de OpenAI aborda estos problemas introduciendo una arquitectura agéntica: descompone las tareas en subobjetivos, invoca herramientas de navegador y Python, ajusta las estrategias en tiempo real y genera informes estructurados con citas. Este diseño valida la viabilidad del RAG agéntico, pero también expone limitaciones clave: modelos de caja negra, ausencia de cadenas de herramientas personalizadas y falta de interfaces para la programación de recursos.

Metodología: extrayendo los mecanismos centrales de Deep Research

Analizamos las descripciones técnicas públicas de Deep Research (OpenAI, 2025) y extrajimos tres principios de diseño reutilizables:

Planificación jerárquica de tareas: Traducir las instrucciones del usuario en una ruta de investigación ejecutable (p. ej., "identificar competidores → recopilar parámetros → realizar validación cruzada → generar tabla comparativa").
Ejecución colaborativa de herramientas: Integrar navegadores web, intérpretes de código y analizadores de archivos para formar un bucle cerrado.
Resultados basados en evidencias: Cada conclusión está vinculada a su fuente original, lo que permite la trazabilidad y la verificación.

Estos mecanismos pueden estandarizarse y encapsularse a través del Model Context Protocol (MCP). MCP define los protocolos para el paso de contexto, la sincronización de estado y la recuperación de errores entre agentes y herramientas, permitiendo que diferentes componentes (como LLMs, crawlers y bases de datos) sean plug-and-play.

Implementación: la arquitectura de Open Deep Wide Research

Basándonos en estas ideas, desarrollamos Open Deep Wide Research (ODWR), un sistema de RAG agéntico de código abierto y autohospedable con las siguientes características:

1. Núcleo de agente compatible con MCP

El controlador del agente se adhiere a la especificación MCP y admite la carga dinámica de herramientas (p. ej., navegador Selenium, analizador de PDF, motor de consultas SQL).
El contexto se pasa como un JSON estructurado, que incluye el estado de la tarea, las URL visitadas, los fragmentos citados y las puntuaciones de confianza.

2. Políticas ajustables en tres dimensiones

Los usuarios pueden especificar en tiempo de ejecución:

Profundidad: Número máximo de pasos de razonamiento (1-10), que controla la complejidad lógica.
Amplitud: Número de fuentes de recuperación en paralelo (5-100+), que afecta a la cobertura de la información.
Presupuesto de latencia: Límite de tiempo estricto (30 s - 30 min), con retroceso automático en caso de tiempo de espera agotado.

Ejemplo: Un modo ligero (Profundidad=2, Amplitud=10, Latencia=2 min) es adecuado para comparaciones de productos; un modo profundo (Profundidad=8, Amplitud=50, Latencia=20 min) se utiliza para revisiones de literatura científica.

3. Mecanismo de recuperación híbrida y replanificación

La recuperación inicial utiliza una estrategia híbrida HyDE + vectorial + por palabra clave.
Si una subtarea crítica falla (p. ej., no se encuentra el informe financiero de una empresa), se activa un bucle de retroceder-reescribir-reintentar.
Admite archivos subidos por el usuario como "conocimiento de anclaje" para guiar la dirección de la recuperación.

4. Código abierto y autohospedable

El código está alojado en GitHub y admite el despliegue en un clic con Docker.
Compatible con los principales LLMs (p. ej., GPT-4o, Claude 3.5, DeepSeek-R1) a través de un adaptador MCP unificado.
El formato de salida es Markdown + JSON, lo que facilita la integración con Notion, Obsidian o sistemas internos.

Comparación con Deep Research

Dimensión	OpenAI Deep Research	Open Deep Wide Research
Accesibilidad	Limitado a suscriptores de ChatGPT	Código abierto, autohospedable
Extensión de herramientas	Cerrado (solo las proporcionadas por OpenAI)	Compatible con MCP, cualquier herramienta es conectable
Granularidad del control	Política fija	Ajustable mediante tres parámetros: Profundidad/Amplitud/Latencia
Soberanía de los datos	Depende de la nube de OpenAI	Soporta bases de conocimiento privadas y ejecución local
Exportación de resultados	Solo dentro de ChatGPT	Soporta exportación por API, JSON y Markdown

Llamada a la acción: pruebe las capacidades de ODWR ahora

Hemos integrado una versión simplificada de ODWR en la plataforma puppyone, permitiendo a los usuarios construir rápidamente aplicaciones de RAG agéntico de nivel empresarial:

Suba documentos técnicos para generar automáticamente informes de análisis competitivo.
Conéctese a bases de datos internas para permitir "consultas en lenguaje natural + investigación externa complementaria".
Despliéguelo como un bot de atención al cliente que cita automáticamente documentos de políticas y manuales de usuario.

puppyone ofrece una prueba gratuita y un plan Profesional para la colaboración en equipo y escenarios de alta concurrencia. Visite https://www.puppyone.ai/ para comenzar su viaje con el RAG agéntico.

Preguntas frecuentes

P1: ¿Puede ODWR reemplazar a Deep Research? Funcionalmente, puede cubrir más del 80 % de sus casos de uso y es especialmente adecuado para empresas que requieren privacidad de los datos, control de costes o herramientas personalizadas. Sin embargo, para tareas extremadamente complejas que dependen de los modelos propietarios de OpenAI (como o3), el rendimiento puede ser ligeramente inferior.

P2: ¿Se necesitan conocimientos de programación para usarlo? Los usuarios sin conocimientos técnicos pueden configurar plantillas de tareas a través de la interfaz gráfica de puppyone, mientras que los desarrolladores pueden personalizar en profundidad el comportamiento del agente a través de la API de MCP.

P3: ¿Cómo puedo controlar los costes? ODWR le permite establecer un consumo máximo de tokens, límites de llamadas a herramientas y umbrales de tiempo de espera. También admite el cambio a modelos más ligeros (como o4-mini o DeepSeek-Lite) para reducir significativamente los costes de inferencia.

Agentic RAG

Agentic RAG para Investigación Profunda: Arquitectura, Mecanismos y Prácticas de Ingeniería

Este artículo presenta un sistema RAG Agéntico orientado a la investigación profunda que planifica de forma autónoma, recupera información de forma iterativa y la valida para generar informes estructurados, completando tareas de nivel experto en 2 a 4 minutos. Se detalla el flujo de trabajo del sistema, su motor de razonamiento dinámico y su rendimiento en benchmarks como Humanity’s Last Exam (21,1 %) y SimpleQA (93,9 %), a la vez que se abordan los desafíos de implementación y se presenta una implementación de código abierto.

Ollie @puppyone27 oct 2025

Agentic RAG

Open Deep Wide Research: Arquitectura de colaboración de agentes de propósito general para recolección de información a gran escala

Este artículo explora una novedosa arquitectura de RAG agéntico que utiliza máquinas virtuales dedicadas en la nube y colaboración multiagente genérica para automatizar tareas de investigación a gran escala —como comparativas entre entidades o estudios de mercado—, al tiempo que aborda los desafíos de ingeniería en latencia, planificación de recursos y previsibilidad de costos.

Ollie @puppyone26 oct 2025

Agentic RAG

Cómo funcionan las arquitecturas de agentes LLM: De la memoria a la acción en sistemas de IA

Descubre cómo las arquitecturas de agentes LLM aprovechan el RAG Agéntico y las bases de contexto dinámicas para pasar de chatbots pasivos a sistemas de IA autónomos que planifican, recuerdan y actúan, impulsados por infraestructuras como Puppyone.ai.

Ollie @puppyone30 dic 2025

Cómo construir un RAG agéntico, escalable y ajustable: de Deep Research a Open Deep Wide Research

Resumen

Contexto del problema: los cuellos de botella evolutivos de RAG

Metodología: extrayendo los mecanismos centrales de Deep Research

Implementación: la arquitectura de Open Deep Wide Research

1. Núcleo de agente compatible con MCP

2. Políticas ajustables en tres dimensiones

3. Mecanismo de recuperación híbrida y replanificación

4. Código abierto y autohospedable

Comparación con Deep Research

Llamada a la acción: pruebe las capacidades de ODWR ahora

Preguntas frecuentes

Lecturas relacionadas

Agentic RAG para Investigación Profunda: Arquitectura, Mecanismos y Prácticas de Ingeniería

Open Deep Wide Research: Arquitectura de colaboración de agentes de propósito general para recolección de información a gran escala

Cómo funcionan las arquitecturas de agentes LLM: De la memoria a la acción en sistemas de IA