Este artículo presenta un sistema RAG Agéntico (Generación Aumentada por Recuperación) diseñado para tareas complejas. Su capacidad principal reside en completar tareas de investigación que tradicionalmente llevarían horas a un experto humano en solo 2 a 4 minutos, gracias a la recuperación iterativa en múltiples rondas, la planificación dinámica de la investigación y la generación de informes estructurados. El sistema alcanza una precisión del 21,1 % en el benchmark integral Humanity’s Last Exam y del 93,9 % en el benchmark de respuesta a preguntas factuales SimpleQA. Este artículo desglosa su flujo de trabajo técnico, sus límites operativos y los desafíos de implementación, a la vez que proporciona una ruta de referencia para su implementación de código abierto.
Los sistemas RAG estándar suelen utilizar un modelo de «recuperación única + generación única». Esto es adecuado para responder preguntas factuales, pero se queda corto al manejar consultas complejas que requieren razonamiento de múltiples saltos, validación cruzada de fuentes o síntesis inductiva.
Por ejemplo, una consulta como «analizar las perspectivas de comercialización de una tecnología emergente» no solo requiere recopilar información sobre sus principios técnicos, panorama de patentes y dinámica de mercado, sino también realizar una comparación horizontal de competidores, evaluar riesgos normativos e integrar todo en conclusiones prácticas.
Para abordar estas tareas de alto nivel, se ha propuesto una nueva arquitectura RAG Agéntica. En lugar de responder pasivamente, el sistema planifica activamente su ruta de investigación, simula el comportamiento de un experto humano y, finalmente, genera un informe estructurado.
El flujo de trabajo del sistema se divide en tres etapas:
El sistema tiene capacidades de búsqueda y ejecución de código, lo que le permite:
Una vez finalizada la recopilación de información, el sistema elimina duplicados, categoriza y sintetiza cientos de fuentes para generar un informe estructurado, lógicamente coherente y con citas, no solo un simple resumen.
Admite la exportación a formatos PDF o de documento para facilitar el archivo y la colaboración.
Eficiencia: El proceso completo dura unos 3 minutos de media, una mejora significativa respecto a la eficiencia de la investigación manual.
El sistema demuestra un rendimiento excepcional en dos benchmarks de referencia:
| Benchmark | Descripción | Precisión |
|---|---|---|
| Humanity’s Last Exam | Una prueba integral que abarca más de 100 temas y más de 3000 preguntas | 21,1 % |
| SimpleQA | Prueba las capacidades de respuesta a preguntas factuales | 93,9 % |
_A pesar de sus impresionantes resultados, esta arquitectura enfrenta los siguientes desafíos en su implementación práctica:
Las futuras direcciones de mejora incluyen:
Si desea construir rápidamente un sistema de investigación profunda con las capacidades descritas, recomendamos usar el producto de código abierto Deep Wide Research Agent de puppyone:
Casos de Uso: Análisis financiero, investigación de mercado, evaluación de tecnología, consultoría de salud, planificación de viajes, etc. Puede funcionar como un «asistente de investigación automatizado» dentro de una organización. 👉 Pruébalo: https://www.deepwideresearch.com
Los modelos estándar se basan en un único contexto para generar una respuesta. En cambio, este sistema tiene capacidades de planificación autónoma, lo que le permite identificar proactivamente lagunas de información, realizar recuperaciones iterativas, validar hechos de forma cruzada y generar un informe estructurado.
Sí, la arquitectura actual depende de la web en tiempo real para obtener la información más reciente. Para procesar conocimiento privado (como documentos corporativos), necesitaría integrar una base de conocimiento interna y asegurarse de que el módulo de recuperación admita fuentes híbridas (web pública + privada). El Deep Wide Research Agent admite la conexión a bases de conocimiento locales.
Se puede optimizar reduciendo la amplitud (es decir, el número de fuentes de datos), habilitando el almacenamiento en caché y paralelizando la recuperación. Sin embargo, el proceso de razonamiento profundo tiene un límite computacional inferior. Para escenarios sensibles a la latencia, se recomienda una estrategia combinada de un «modo rápido» más una revisión manual.