이 글에서는 복잡한 작업을 처리하는 에이전트 RAG(검색 증강 생성) 시스템을 소개합니다. 이 시스템은 여러 번의 반복 검색, 동적 조사 계획, 구조화된 보고서 생성을 핵심 기능으로 하며, 과거에는 인간 전문가가 몇 시간씩 걸리던 조사 작업을 2~4분 만에 완료합니다. 종합 벤치마크 Humanity’s Last Exam에서는 21.1%, 사실 기반 질의응답 벤치마크 SimpleQA에서는 **93.9%**의 정답률을 달성했습니다. 이 글에서는 해당 시스템의 기술적 워크플로, 적용 범위, 도입 시의 과제를 설명하고 오픈소스로 구현하기 위한 방향을 제시합니다.
표준 RAG 시스템은 보통 '한 번의 검색 + 한 번의 생성'이라는 단일 프로세스를 채택하여 사실 기반 질의응답에는 적합하지만, 다단계 추론, 여러 소스에 걸친 교차 검증, 또는 정보의 통합 및 요약을 필요로 하는 복잡한 쿼리에는 대응하기 어렵습니다.
예를 들어, '어떤 신기술의 상용화 전망을 분석하라'와 같은 작업은 기술 원리, 특허 포트폴리오, 시장 동향 정보를 얻는 것뿐만 아니라, 경쟁 제품과의 비교, 정책 리스크 평가, 그리고 이를 실용적인 결론으로 통합하는 과정이 필요합니다.
이러한 고급 작업에 대응하기 위해 새로운 유형의 **에이전트 RAG 아키텍처**가 제안되었습니다. 이 시스템은 수동적으로 응답하는 대신, 자율적으로 조사 계획을 수립하고 인간 전문가의 조사 행동을 모방하여 최종적으로 구조화된 보고서를 출력합니다.
이 시스템의 워크플로는 다음 세 단계로 구성됩니다.
시스템은 검색 능력과 코드 실행 능력을 갖추고 있어 다음과 같은 동작이 가능합니다.
정보 수집이 완료되면 시스템은 수백 개의 소스에서 중복을 제거하고 분류 및 요약하여, 단순한 요약이 아닌 논리적이고 출처 추적이 가능한 구조화된 보고서를 생성합니다.
PDF나 문서 형식으로 내보내기를 지원하여 보관 및 공동 작업에 편리합니다.
효율성: 전체 프로세스의 평균 소요 시간은 약 3분으로, 수작업으로 진행하는 조사 효율을 크게 뛰어넘습니다.
이 시스템은 두 개의 권위 있는 벤치마크에서 뛰어난 성능을 보였습니다.
| 벤치마크 | 설명 | 정답률 |
|---|---|---|
| Humanity’s Last Exam | 100개 이상의 학문 분야, 3,000개 이상의 문제를 포함하는 종합 능력 테스트 | 21.1% |
| SimpleQA | 사실 기반 질의응답 능력 테스트 | 93.9% |
이 아키텍처는 뛰어난 효과를 발휘하지만, 실제 도입에는 다음과 같은 과제가 따릅니다.
향후 개선 방향으로는 다음을 들 수 있습니다.
만약 위와 같은 능력을 갖춘 고급 연구 조사 시스템을 신속하게 구축하고 싶다면, **puppyone**가 제공하는 오픈소스 제품 **Deep Wide Research Agent**의 사용을 추천합니다.
응용 시나리오: 금융 분석, 시장 조사, 기술 평가, 건강 상담, 여행 계획 등 조직 내 '자동화된 리서치 어시스턴트'로 활용할 수 있습니다.
👉 데모 사이트 바로가기: https://www.deepwideresearch.com
일반 모델은 단일 컨텍스트를 기반으로 답변을 생성하지만, 이 시스템은 자율적인 계획 능력을 갖추고 있어 능동적으로 정보 부족을 파악하고 반복적으로 검색과 교차 검증을 수행하여 구조화된 보고서를 출력합니다.
네, 현재 아키텍처는 최신 정보를 얻기 위해 실시간 웹 검색에 의존합니다. 프라이빗한 지식(예: 기업 내부 문서)을 다뤄야 할 경우, 내부 지식 베이스를 별도로 통합하고 검색 모듈이 하이브리드 소스(공개 웹 + 프라이빗)를 지원하도록 해야 합니다. Deep Wide Research Agent는 로컬 지식 베이스 연결을 지원합니다.
너비(데이터 소스 수)를 줄이거나, 캐시를 활성화하거나, 검색을 병렬화하는 등의 방법으로 최적화할 수 있지만, 깊이 있는 추론 자체에는 계산 시간의 하한선이 있습니다. 지연 시간에 민감한 시나리오에서는 '고속 모드 + 수동 검토' 조합 전략을 추천합니다.