조정 및 확장 가능한 에이전틱 RAG 구축: Deep Research에서 Open Deep Wide Research까지

2025년 10월 27일Ollie @PuppyAgenrt

요약

2025년, 검색 증강 생성(RAG)은 '정적 파이프라인'에서 '자율 에이전트'로의 패러다임 전환을 겪고 있습니다. OpenAI의 Deep Research는 이러한 방향의 잠재력을 보여줍니다. 다단계 계획, 도구 호출, 동적 추론을 통해 복잡한 연구 작업을 분 단위로 압축합니다. 그러나 폐쇄적인 아키텍처와 고정된 정책은 제어 가능성, 비용 효율성, 데이터 주권에 대한 기업의 요구를 충족시키기 어렵습니다. 본 글에서는 **Open Deep Wide Research(ODWR)**를 제안합니다. 이는 오픈소스이며, MCP 호환되고, 런타임 정책 조정을 지원하는 에이전틱 RAG 프레임워크로, Deep Research의 핵심 기능을 재현하면서 개발자에게 깊이, 너비, 지연 시간에 대한 세밀한 제어권을 부여하는 것을 목표로 합니다.


문제 배경: RAG의 진화적 병목 현상

전통적인 RAG 시스템은 '검색 → 재순위화 → 생성'의 선형 프로세스를 채택하여 사실 기반 질의응답에는 적합하지만, 다음과 같은 시나리오에서는 성능이 저하됩니다.

  • 멀티홉 추론: 예: "2024-2025년 세 AI 회사의 오픈소스 전략과 그것이 개발자 생태계에 미치는 영향을 비교하시오."
  • 이기종 데이터 융합: 웹 페이지, PDF 기술 백서, 사용자가 업로드한 CSV 보고서를 동시에 분석해야 하는 경우
  • 동적 작업 조정: 초기 검색 결과의 품질이 낮을 때, 쿼리를 자율적으로 수정하거나 데이터 소스를 전환할 수 없는 경우

OpenAI의 Deep Research는 **에이전트 기반 아키텍처**를 도입하여 이러한 문제들을 해결했습니다. 작업을 하위 목표로 분해하고, 브라우저와 Python 도구를 호출하며, 실시간으로 정책을 조정하고, 인용이 포함된 구조화된 보고서를 출력합니다. 이 설계는 **에이전틱 RAG**의 실현 가능성을 입증했지만, 블랙박스 모델, 사용자 정의 도구 체인의 부재, 리소스 스케줄링 인터페이스 부족이라는 핵심적인 한계도 드러냈습니다.


방법론: Deep Research에서 핵심 메커니즘 추출

저희는 Deep Research의 공개 기술 설명(OpenAI, 2025)을 분석하여 재사용 가능한 세 가지 설계 원칙을 추출했습니다.

  1. 계층적 작업 계획: 사용자 지시를 실행 가능한 연구 경로로 변환합니다(예: '경쟁 제품 식별 → 파라미터 수집 → 교차 검증 → 비교표 생성').
  2. 도구 협력 실행: 웹 브라우저, 코드 인터프리터, 파일 파서를 통합하여 폐쇄 루프를 형성합니다.
  3. 증거 기반 출력: 모든 결론은 원본 출처와 연결되어 추적 및 검증을 지원합니다.

이러한 메커니즘은 **MCP(Model Context Protocol)**를 통해 표준화하여 캡슐화할 수 있습니다. MCP는 에이전트와 도구 간의 컨텍스트 전달, 상태 동기화, 오류 복구 프로토콜을 정의하여 LLM, 크롤러, 데이터베이스 등 다양한 구성 요소를 플러그 앤 플레이 방식으로 사용할 수 있게 합니다.


실제 구현: Open Deep Wide Research 아키텍처

위의 통찰을 바탕으로, 저희는 오픈소스이며 자체 호스팅이 가능한 에이전틱 RAG 시스템인 **Open Deep Wide Research(ODWR)**를 개발했습니다. 이 시스템은 다음과 같은 특징을 가집니다.

1. MCP 호환 에이전트 코어

  • 에이전트 컨트롤러는 MCP 사양을 준수하며, Selenium 브라우저, PDF 파서, SQL 쿼리 엔진과 같은 도구를 동적으로 로드할 수 있습니다.
  • 컨텍스트는 구조화된 JSON으로 전달되며, 작업 상태, 방문한 URL, 인용된 구문, 신뢰도 점수를 포함합니다.

2. 3차원 조정 가능 정책

사용자는 런타임에 다음을 지정할 수 있습니다.

  • Depth(깊이): 최대 추론 단계 수(1~10단계)로, 논리적 복잡성을 제어합니다.
  • Width(너비): 병렬 검색 소스 수(5~100개 이상)로, 정보 커버리지에 영향을 줍니다.
  • Latency Budget(지연 시간 예산): 엄격한 마감 시간(30초~30분)으로, 시간 초과 시 자동으로 성능을 낮춥니다.

예시: 경량 모드(Depth=2, Width=10, Latency=2min)는 제품 비교에 적합하며, 심층 모드(Depth=8, Width=50, Latency=20min)는 학술 연구 리뷰에 사용됩니다.

3. 하이브리드 검색 및 재계획 메커니즘

  • 초기 검색은 HyDE + 벡터 + 키워드 하이브리드 전략을 사용합니다.
  • 핵심 하위 작업이 실패할 경우(예: 특정 회사의 재무 보고서를 찾지 못한 경우), 백트래킹-재작성-재시도 루프가 트리거됩니다.
  • 사용자가 파일을 '앵커 지식'으로 업로드하여 검색 방향을 유도할 수 있습니다.

4. 오픈소스 및 자체 호스팅

  • 코드는 GitHub에서 호스팅되며, Docker 원클릭 배포를 지원합니다.
  • 주요 LLM(GPT-4o, Claude 3.5, DeepSeek-R1 등)과 호환되며, 통일된 MCP 어댑터를 통해 연결됩니다.
  • 출력 형식은 Markdown + JSON으로, Notion, Obsidian 또는 내부 시스템에 쉽게 통합할 수 있습니다.

Deep Research와의 비교

차원OpenAI Deep ResearchOpen Deep Wide Research
접근성ChatGPT 구독자 전용오픈소스, 자체 호스팅 가능
도구 확장성폐쇄형(OpenAI 제공만 가능)MCP 호환, 모든 도구 플러그인 가능
제어 세분성고정된 정책Depth/Width/Latency 3개 파라미터 조정 가능
데이터 주권OpenAI 클라우드에 의존사설 지식 베이스 및 로컬 실행 지원
출력 내보내기ChatGPT 내에서만 가능API, JSON, Markdown 내보내기 지원

ODWR 기능 바로 경험하기

저희는 puppyone 플랫폼에 ODWR의 간소화된 버전을 통합하여 사용자가 기업 수준의 에이전틱 RAG 애플리케이션을 신속하게 구축할 수 있도록 했습니다.

  • 기술 문서를 업로드하여 경쟁사 분석 보고서를 자동으로 생성합니다.
  • 내부 데이터베이스에 연결하여 '자연어 쿼리 + 외부 리서치 보강'을 구현합니다.
  • 고객 서비스 봇으로 배포하여 정책 문서와 사용자 매뉴얼을 자동으로 인용합니다.

Puppyone는 무료 평가판을 지원하며, 팀 협업 및 고성능 동시 접속 시나리오를 위한 Professional 플랜을 제공합니다. https://www.puppyone.ai/를 방문하여 여러분의 에이전틱 RAG 실습을 시작해 보세요.


FAQ

Q1: ODWR이 Deep Research를 대체할 수 있나요? 기능적으로 80% 이상의 시나리오를 커버할 수 있으며, 특히 데이터 프라이버시, 비용 관리 또는 맞춤형 도구가 필요한 기업에 적합합니다. 그러나 OpenAI의 독점 모델(예: o3)에 의존하는 극도로 복잡한 작업의 경우 성능이 다소 낮을 수 있습니다.

Q2: 사용하려면 프로그래밍 지식이 필요한가요? Puppyone의 그래픽 인터페이스를 통해 비기술자도 작업 템플릿을 구성할 수 있으며, 개발자는 MCP API를 통해 에이전트의 동작을 심도 있게 맞춤 설정할 수 있습니다.

Q3: 비용은 어떻게 관리하나요? ODWR은 최대 토큰 소모량, 도구 호출 횟수, 시간 초과 임계값을 설정할 수 있으며, 경량 모델(예: o4-mini 또는 DeepSeek-Lite)로 전환하여 추론 비용을 크게 절감할 수 있습니다.