Aufbau eines anpassbaren, skalierbaren agentenbasierten RAG: Von Deep Research zu Open Deep Wide Research

27. Oktober 2025Ollie @PuppyAgenrt

Abstract

Im Jahr 2025 durchläuft die Retrieval-Augmented Generation (RAG) einen Paradigmenwechsel von „statischen Pipelines“ zu „autonomen Agenten". OpenAI's Deep Research demonstriert das Potenzial dieser Entwicklung, indem es komplexe Rechercheaufgaben durch mehrstufige Planung, Tool-Nutzung und dynamisches Schlussfolgern auf wenige Minuten komprimiert. Jedoch kann die geschlossene Architektur mit ihren starren Strategien die Anforderungen von Unternehmen an Kontrollierbarkeit, Kosteneffizienz und Datenhoheit nur schwer erfüllen. Dieser Artikel stellt Open Deep Wide Research (ODWR) vor – ein Open-Source-, MCP-kompatibles, agentenbasiertes RAG-Framework, das die Anpassung von Richtlinien zur Laufzeit unterstützt. Es zielt darauf ab, die Kernfähigkeiten von Deep Research nachzubilden und Entwicklern gleichzeitig eine granulare Kontrolle über Tiefe, Breite und Latenz zu geben.


Problemhintergrund: Die evolutionären Engpässe von RAG

Traditionelle RAG-Systeme verwenden eine lineare „Retrieve → Rerank → Generate“-Pipeline. Diese eignet sich gut für die Beantwortung faktenbasierter Fragen, stößt aber in den folgenden Szenarien an ihre Grenzen:

  • Mehrstufiges Schlussfolgern (Multi-hop Reasoning): Zum Beispiel: „Vergleichen Sie die Open-Source-Strategien von drei KI-Unternehmen im Zeitraum 2024–2025 und deren Auswirkungen auf das Entwickler-Ökosystem.“
  • Fusion heterogener Daten: Erfordert das gleichzeitige Parsen von Webseiten, technischen Whitepapers im PDF-Format und vom Benutzer hochgeladenen CSV-Berichten.
  • Dynamische Aufgabenanpassung: Wenn die ersten Retrieval-Ergebnisse von geringer Qualität sind, kann das System nicht autonom Anfragen korrigieren oder die Datenquellen wechseln.

OpenAI's Deep Research löst diese Probleme durch die Einführung einer agentenbasierten Architektur: Es zerlegt Aufgaben in Teilziele, ruft Browser- und Python-Tools auf, passt Strategien in Echtzeit an und gibt strukturierte Berichte mit Quellenangaben aus. Dieses Design bestätigt die Machbarkeit von agentenbasiertem RAG, deckt aber auch wesentliche Einschränkungen auf: Blackbox-Modelle, keine benutzerdefinierten Toolchains und fehlende Schnittstellen für die Ressourcenplanung.


Methodik: Destillation der Kernmechanismen von Deep Research

Wir haben die öffentlichen technischen Beschreibungen von Deep Research (OpenAI, 2025) analysiert und drei wiederverwendbare Designprinzipien extrahiert:

  1. Hierarchische Aufgabenplanung: Übersetzung von Benutzeranweisungen in einen ausführbaren Recherchepfad (z. B. „Wettbewerber identifizieren → Parameter sammeln → gegenprüfen → Vergleichstabelle erstellen“).
  2. Kollaborative Tool-Ausführung: Integration von Webbrowsern, Code-Interpretern und Datei-Parsern, um einen geschlossenen Kreislauf zu bilden.
  3. Evidenzbasierte Ausgabe: Jede Schlussfolgerung ist mit ihrer Originalquelle verknüpft, was die Nachvollziehbarkeit und Überprüfung unterstützt.

Diese Mechanismen können über das Model Context Protocol (MCP) standardisiert und gekapselt werden. MCP definiert die Protokolle für die Kontextübergabe, Zustandssynchronisierung und Fehlerbehebung zwischen Agenten und Tools, wodurch verschiedene Komponenten (wie LLMs, Crawler und Datenbanken) per Plug-and-Play austauschbar werden.


Implementierung: Die Architektur von Open Deep Wide Research

Basierend auf diesen Erkenntnissen haben wir Open Deep Wide Research (ODWR) entwickelt, ein Open-Source-, selbst gehostetes agentenbasiertes RAG-System mit den folgenden Merkmalen:

1. MCP-kompatibler Agenten-Kern

  • Der Agenten-Controller hält sich an die MCP-Spezifikation und unterstützt das dynamische Laden von Tools (z. B. Selenium-Browser, PDF-Parser, SQL-Abfrage-Engine).
  • Der Kontext wird als strukturiertes JSON übergeben und enthält Aufgabenstatus, besuchte URLs, zitierte Textausschnitte und Konfidenzwerte.

2. Dreidimensional anpassbare Richtlinien

Benutzer können zur Laufzeit Folgendes festlegen:

  • Tiefe (Depth): Maximale Anzahl an Schlussfolgerungsschritten (1–10), steuert die logische Komplexität.
  • Breite (Width): Anzahl paralleler Retrieval-Quellen (5–100+), beeinflusst die Informationsabdeckung.
  • Latenzbudget (Latency Budget): Feste Frist (30 s – 30 min), mit automatischem Fallback bei Zeitüberschreitung.

Beispiel: Ein schlanker Modus (Tiefe=2, Breite=10, Latenz=2 min) eignet sich für Produktvergleiche; ein Tiefenmodus (Tiefe=8, Breite=50, Latenz=20 min) wird für die Recherche wissenschaftlicher Literatur verwendet.

3. Hybrides Retrieval und Neuplanungsmechanismus

  • Das anfängliche Retrieval verwendet eine hybride HyDE + Vektor + Keyword-Strategie.
  • Wenn eine kritische Teilaufgabe fehlschlägt (z. B. wenn der Finanzbericht eines Unternehmens nicht gefunden wird), wird eine Backtrack-Rewrite-Retry-Schleife ausgelöst.
  • Unterstützt vom Benutzer hochgeladene Dateien als „Ankerwissen“, um die Retrieval-Richtung zu steuern.

4. Open Source und selbst hostbar

  • Der Code wird auf GitHub gehostet und unterstützt die Ein-Klick-Bereitstellung mit Docker.
  • Kompatibel mit gängigen LLMs (z. B. GPT-4o, Claude 3.5, DeepSeek-R1) über einen einheitlichen MCP-Adapter.
  • Das Ausgabeformat ist Markdown + JSON, was die Integration mit Notion, Obsidian oder internen Systemen erleichtert.

Vergleich mit Deep Research

DimensionOpenAI Deep ResearchOpen Deep Wide Research
ZugänglichkeitBeschränkt auf ChatGPT-AbonnentenOpen-Source, selbst hostbar
Tool-ErweiterungGeschlossen (nur von OpenAI bereitgestellt)MCP-kompatibel, jedes Tool ist per Plug-in integrierbar
KontrollgranularitätFeste RichtlinieAnpassbar über drei Parameter: Tiefe/Breite/Latenz
DatenhoheitAbhängig von der OpenAI CloudUnterstützt private Wissensdatenbanken und lokale Ausführung
AusgabeexportNur innerhalb von ChatGPTUnterstützt API-, JSON- und Markdown-Export

Handlungsaufforderung: Erleben Sie die Fähigkeiten von ODWR jetzt

Wir haben eine vereinfachte Version von ODWR auf der puppyone-Plattform integriert, mit der Benutzer schnell unternehmenstaugliche agentenbasierte RAG-Anwendungen erstellen können:

  • Laden Sie technische Dokumente hoch, um automatisch Wettbewerbsanalysen zu erstellen.
  • Verbinden Sie interne Datenbanken, um „Abfragen in natürlicher Sprache + ergänzende externe Recherchen“ zu ermöglichen.
  • Setzen Sie es als Kundenservice-Bot ein, der automatisch Richtliniendokumente und Benutzerhandbücher zitiert.

puppyone bietet eine kostenlose Testversion und einen Professional-Plan für Team-Kollaboration und Szenarien mit hoher Parallelität. Besuchen Sie https://www.puppyone.ai/, um Ihre Reise mit agentenbasiertem RAG zu beginnen.


FAQ

F1: Kann ODWR Deep Research ersetzen? Funktional kann es über 80 % der Anwendungsfälle abdecken und eignet sich besonders für Unternehmen, die Datenschutz, Kostenkontrolle oder benutzerdefinierte Tools benötigen. Bei extrem komplexen Aufgaben, die auf proprietäre Modelle von OpenAI (wie o3) angewiesen sind, kann die Leistung jedoch etwas geringer ausfallen.

F2: Sind Programmierkenntnisse für die Nutzung erforderlich? Nicht-technische Benutzer können Aufgaben-Templates über die grafische Benutzeroberfläche von puppyone konfigurieren, während Entwickler das Verhalten des Agenten über die MCP-API tiefgreifend anpassen können.

F3: Wie kann ich die Kosten kontrollieren? Mit ODWR können Sie den maximalen Token-Verbrauch, Limits für Tool-Aufrufe und Zeitüberschreitungsschwellen festlegen. Es unterstützt auch den Wechsel zu schlankeren Modellen (wie o4-mini oder DeepSeek-Lite), um die Inferenzkosten erheblich zu senken.