RAG Agéntico para Investigación Profunda: Arquitectura, Mecanismos y Prácticas de Ingeniería

27 de octubre de 2025Ollie @puppyone

Resumen

Este artículo presenta un sistema RAG Agéntico (Generación Aumentada por Recuperación) diseñado para tareas complejas. Su capacidad principal reside en completar tareas de investigación que tradicionalmente llevarían horas a un experto humano en solo 2 a 4 minutos, gracias a la recuperación iterativa en múltiples rondas, la planificación dinámica de la investigación y la generación de informes estructurados. El sistema alcanza una precisión del 21,1 % en el benchmark integral Humanity’s Last Exam y del 93,9 % en el benchmark de respuesta a preguntas factuales SimpleQA. Este artículo desglosa su flujo de trabajo técnico, sus límites operativos y los desafíos de implementación, a la vez que proporciona una ruta de referencia para su implementación de código abierto.

Contexto del Problema

Los sistemas RAG estándar suelen utilizar un modelo de «recuperación única + generación única». Esto es adecuado para responder preguntas factuales, pero se queda corto al manejar consultas complejas que requieren razonamiento de múltiples saltos, validación cruzada de fuentes o síntesis inductiva.

Por ejemplo, una consulta como «analizar las perspectivas de comercialización de una tecnología emergente» no solo requiere recopilar información sobre sus principios técnicos, panorama de patentes y dinámica de mercado, sino también realizar una comparación horizontal de competidores, evaluar riesgos normativos e integrar todo en conclusiones prácticas.

Para abordar estas tareas de alto nivel, se ha propuesto una nueva arquitectura RAG Agéntica. En lugar de responder pasivamente, el sistema planifica activamente su ruta de investigación, simula el comportamiento de un experto humano y, finalmente, genera un informe estructurado.

Descripción de la Metodología

El flujo de trabajo del sistema se divide en tres etapas:

1. Investigación y Razonamiento Autónomos

El sistema tiene capacidades de búsqueda y ejecución de código, lo que le permite:

  • Generar múltiples subpreguntas en la fase inicial;
  • Ejecutar de forma iterativa un bucle de Buscar → Leer Documentos → Evaluar Lagunas de Información → Ajustar Estrategia Posterior;
  • Llamar a un intérprete de código cuando sea necesario (p. ej., para analizar tablas o calcular métricas) para mejorar la verificación de hechos.

2. Redacción del Informe

Una vez finalizada la recopilación de información, el sistema elimina duplicados, categoriza y sintetiza cientos de fuentes para generar un informe estructurado, lógicamente coherente y con citas, no solo un simple resumen.

3. Exportación de Resultados

Admite la exportación a formatos PDF o de documento para facilitar el archivo y la colaboración.

Eficiencia: El proceso completo dura unos 3 minutos de media, una mejora significativa respecto a la eficiencia de la investigación manual.

Detalles Técnicos Clave

1. Planificador de Investigación Dinámico

  • Utiliza un modelo de lenguaje grande como un «agente de investigación» para generar dinámicamente las siguientes palabras clave de búsqueda basándose en su estado de conocimiento actual;
  • Si detecta información contradictoria o una cobertura insuficiente, amplía proactivamente sus fuentes de datos o profundiza en subdominios específicos;
  • Ejemplo: Si una consulta inicial sobre «las ventajas técnicas de una empresa» no cubre comparaciones con la competencia, genera automáticamente subconsultas como «vs. principales competidores».

2. Recuperación Híbrida de Múltiples Fuentes

  • Llama a múltiples motores de búsqueda modernos en paralelo (como servicios que soportan el Model Context Protocol (MCP));
  • Realiza una validación cruzada de múltiples fuentes para hechos clave (p. ej., datos financieros, especificaciones técnicas);
  • Incorpora un mecanismo de confianza, donde el contenido de baja confianza se pondera a la baja o se excluye.

3. Generación de Salida Estructurada

  • El informe se organiza en módulos lógicos (Contexto, Metodología, Hallazgos Clave, Conclusión);
  • Cada afirmación va acompañada de un enlace a la fuente para su trazabilidad;
  • Admite formatos enriquecidos como tablas y listas comparativas para mejorar la legibilidad y la utilidad.

Evaluación de Rendimiento

El sistema demuestra un rendimiento excepcional en dos benchmarks de referencia:

BenchmarkDescripciónPrecisión
Humanity’s Last ExamUna prueba integral que abarca más de 100 temas y más de 3000 preguntas21,1 %
SimpleQAPrueba las capacidades de respuesta a preguntas factuales93,9 %
  • En Humanity’s Last Exam, su rendimiento supera significativamente a los modelos convencionales como o1, DeepSeek-R1 y Gemini Thinking;
  • Más del 90 % de las tareas se pueden completar en 3 minutos, equilibrando profundidad y eficiencia.

Limitaciones y Desafíos de Ingeniería

_A pesar de sus impresionantes resultados, esta arquitectura enfrenta los siguientes desafíos en su implementación práctica:

  • Alto Costo Computacional: Una sola tarea implica docenas de llamadas a API de recuperación y múltiples inferencias de LLM, con costos aproximadamente proporcionales a la complejidad de la tarea;
  • Restricciones de Latencia: El tiempo de respuesta de 2 a 4 minutos no es adecuado para conversaciones en tiempo real o escenarios de baja latencia;
  • Dependencia de la Calidad de los Datos Externos: Si las fuentes de recuperación contienen ruido, sesgos o información desactualizada, la cadena de razonamiento puede contaminarse;
  • Falta de Mecanismo de Intervención del Usuario: El proceso actual es totalmente automatizado, sin forma de corregir la dirección o las prioridades de la investigación a mitad de camino.

Las futuras direcciones de mejora incluyen:

  • Introducir un bucle de retroalimentación del usuario;
  • Soportar vistas previas de resultados parciales;
  • Optimizar las estrategias de almacenamiento en caché y reutilización de resultados intermedios.

Recomendaciones para la Implementación de Código Abierto

Si desea construir rápidamente un sistema de investigación profunda con las capacidades descritas, recomendamos usar el producto de código abierto Deep Wide Research Agent de puppyone:

  • Construido sobre el Model Context Protocol (MCP), admite la integración plug-and-play de fuentes de datos y herramientas;
  • Proporciona un intuitivo Plano de Control de Profundidad × Amplitud (Depth × Wide Control Plane), que permite a los usuarios ajustar de forma flexible la complejidad y la cobertura de la investigación con dos parámetros;
  • Incluye lógica integrada para estimar el consumo de recursos y ayudar a los desarrolladores a predecir los costos;
  • Admite el despliegue totalmente privado, garantizando que los datos corporativos sensibles permanezcan dentro de su dominio;
  • Compatible con diversos backends de modelos como OpenAI, Claude, DeepSeek y LLM locales, cumpliendo tanto con los requisitos de conformidad como de rendimiento.

Casos de Uso: Análisis financiero, investigación de mercado, evaluación de tecnología, consultoría de salud, planificación de viajes, etc. Puede funcionar como un «asistente de investigación automatizado» dentro de una organización. 👉 Pruébalo: https://www.deepwideresearch.com

Preguntas Frecuentes

P1: ¿Cuál es la diferencia fundamental entre este sistema y un modelo estándar de respuesta a preguntas?

Los modelos estándar se basan en un único contexto para generar una respuesta. En cambio, este sistema tiene capacidades de planificación autónoma, lo que le permite identificar proactivamente lagunas de información, realizar recuperaciones iterativas, validar hechos de forma cruzada y generar un informe estructurado.

P2: ¿Depende necesariamente de la búsqueda en internet?

Sí, la arquitectura actual depende de la web en tiempo real para obtener la información más reciente. Para procesar conocimiento privado (como documentos corporativos), necesitaría integrar una base de conocimiento interna y asegurarse de que el módulo de recuperación admita fuentes híbridas (web pública + privada). El Deep Wide Research Agent admite la conexión a bases de conocimiento locales.

P3: ¿Se puede reducir la latencia de 3 minutos?

Se puede optimizar reduciendo la amplitud (es decir, el número de fuentes de datos), habilitando el almacenamiento en caché y paralelizando la recuperación. Sin embargo, el proceso de razonamiento profundo tiene un límite computacional inferior. Para escenarios sensibles a la latencia, se recomienda una estrategia combinada de un «modo rápido» más una revisión manual.