Agentic RAG für die Tiefenrecherche: Architektur, Mechanismen und Engineering-Praktiken

27. Oktober 2025Ollie @puppyone

Abstract

Dieser Artikel stellt ein Agentic-RAG-System (Retrieval-Augmented Generation) vor, das für komplexe Aufgaben entwickelt wurde. Seine Kernfähigkeit liegt darin, Rechercheaufgaben, für die ein menschlicher Experte traditionell Stunden benötigen würde, in nur 2 bis 4 Minuten zu erledigen. Dies wird durch mehrrundigen iterativen Abruf, dynamische Rechercheplanung und die Erstellung strukturierter Berichte erreicht. Das System erzielt eine Genauigkeit von 21,1 % im umfassenden Benchmark Humanity’s Last Exam und 93,9 % im Benchmark für faktenbasierte Fragen und Antworten SimpleQA. Dieser Artikel schlüsselt seinen technischen Workflow, seine operativen Grenzen und die Herausforderungen bei der Bereitstellung auf und bietet gleichzeitig einen Referenzpfad für eine Open-Source-Implementierung.

Problemhintergrund

Standard-RAG-Systeme verwenden typischerweise ein „Einmaliger Abruf + einmalige Generierung“-Modell. Dieses eignet sich für faktenbasierte Fragen und Antworten, stößt aber an seine Grenzen bei der Bearbeitung komplexer Anfragen, die mehrstufiges Schließen (Multi-Hop-Reasoning), quellenübergreifende Validierung oder induktive Synthese erfordern.

Eine Anfrage wie „Analysieren Sie die Kommerzialisierungsaussichten einer aufstrebenden Technologie“ erfordert beispielsweise nicht nur das Sammeln von Informationen über deren technische Prinzipien, Patentlandschaft und Marktdynamik, sondern auch einen horizontalen Vergleich von Wettbewerbern, die Bewertung politischer Risiken und die Integration all dieser Informationen zu handlungsorientierten Schlussfolgerungen.

Um diese anspruchsvollen Aufgaben zu bewältigen, wurde eine neue Agentic-RAG-Architektur vorgeschlagen. Anstatt passiv zu antworten, plant das System aktiv seinen Recherchepfad, simuliert das Verhalten eines menschlichen Experten und gibt am Ende einen strukturierten Bericht aus.

Methodik im Überblick

Der Workflow des Systems gliedert sich in drei Phasen:

1. Autonome Recherche und Schlussfolgerung

Das System verfügt über Such- und Codeausführungsfähigkeiten, die es ihm ermöglichen:

  • In der Anfangsphase mehrere Teilfragen zu generieren;
  • Iterativ eine Suchen → Dokumente lesen → Informationslücken bewerten → Nachfolgestrategie anpassen-Schleife auszuführen;
  • Bei Bedarf einen Code-Interpreter aufzurufen (z. B. um Tabellen zu parsen oder Metriken zu berechnen), um die Faktenprüfung zu verbessern.

2. Berichterstellung

Nach Abschluss der Informationssammlung dedupliziert, kategorisiert und synthetisiert das System Hunderte von Quellen, um einen logisch kohärenten, zitierfähigen und strukturierten Bericht zu erstellen, nicht nur eine einfache Zusammenfassung.

3. Ergebnisexport

Unterstützt den Export in PDF- oder Dokumentformate zur einfachen Archivierung und Zusammenarbeit.

Effizienz: Der gesamte Prozess dauert im Durchschnitt etwa 3 Minuten, eine deutliche Verbesserung gegenüber der manuellen Rechercheeffizienz.

Wichtige technische Details

1. Dynamischer Rechercheplaner

  • Verwendet ein großes Sprachmodell als „Recherche-Agent“, um basierend auf seinem aktuellen Wissensstand dynamisch die nächsten Suchbegriffe zu generieren;
  • Wenn es widersprüchliche Informationen oder eine unzureichende Abdeckung feststellt, erweitert es proaktiv seine Datenquellen oder vertieft sich in spezifische Teilbereiche;
  • Beispiel: Wenn eine anfängliche Anfrage zu den „technischen Vorteilen eines Unternehmens“ keine Wettbewerbervergleiche abdeckt, generiert es automatisch Unterabfragen wie „vs. Hauptwettbewerber“.

2. Hybrider Abruf aus mehreren Quellen

  • Ruft parallel mehrere moderne Suchmaschinen auf (wie z. B. Dienste, die das Model Context Protocol (MCP) unterstützen);
  • Führt eine quellenübergreifende Kreuzvalidierung für wichtige Fakten durch (z. B. Finanzdaten, technische Spezifikationen);
  • Integriert einen Konfidenzmechanismus, bei dem Inhalte mit geringer Konfidenz heruntergewichtet oder ausgeschlossen werden.

3. Generierung strukturierter Ausgaben

  • Der Bericht ist in logische Module gegliedert (Hintergrund, Methodik, Kernergebnisse, Schlussfolgerung);
  • Jede Behauptung wird zur Nachverfolgbarkeit von einem Quelllink begleitet;
  • Unterstützt Rich-Formate wie Tabellen und Vergleichslisten, um die Lesbarkeit und Nützlichkeit zu verbessern.

Leistungsbewertung

Das System zeigt eine hervorragende Leistung in zwei maßgeblichen Benchmarks:

BenchmarkBeschreibungGenauigkeit
Humanity’s Last ExamEin umfassender Test, der über 100 Themen und mehr als 3.000 Fragen abdeckt21,1 %
SimpleQATestet die Fähigkeit zur Beantwortung faktenbasierter Fragen93,9 %
  • Bei Humanity’s Last Exam übertrifft seine Leistung die gängiger Modelle wie o1, DeepSeek-R1 und Gemini Thinking deutlich;
  • Über 90 % der Aufgaben können innerhalb von 3 Minuten abgeschlossen werden, was eine Balance zwischen Tiefe und Effizienz darstellt.

Einschränkungen und technische Herausforderungen

rotz seiner beeindruckenden Ergebnisse steht diese Architektur bei der praktischen Bereitstellung vor folgenden Herausforderungen:

  • Hohe Rechenkosten: Eine einzelne Aufgabe umfasst Dutzende von Abruf-API-Aufrufen und mehrere LLM-Inferenzen, wobei die Kosten ungefähr proportional zur Komplexität der Aufgabe sind;
  • Latenzbeschränkungen: Die Antwortzeit von 2 bis 4 Minuten ist für Echtzeitgespräche oder latenzarme Szenarien ungeeignet;
  • Abhängigkeit von der Qualität externer Daten: Wenn die abgerufenen Quellen Rauschen, Verzerrungen oder veraltete Informationen enthalten, kann die Schlussfolgerungskette kontaminiert werden;
  • Fehlender Mechanismus für Benutzereingriffe: Der aktuelle Prozess ist vollständig automatisiert, ohne die Möglichkeit, die Rechercherichtung oder Prioritäten während des Ablaufs zu korrigieren.

Zukünftige Verbesserungsrichtungen umfassen:

  • Einführung einer Benutzer-Feedback-Schleife;
  • Unterstützung von Vorschauen für Teilergebnisse;
  • Optimierung von Caching- und Wiederverwendungsstrategien für Zwischenergebnisse.

Empfehlungen für die Open-Source-Implementierung

Wenn Sie schnell ein System für die Tiefenrecherche mit den oben beschriebenen Fähigkeiten aufbauen möchten, empfehlen wir die Verwendung des Open-Source-Produkts Deep Wide Research Agent von puppyone:

  • Aufgebaut auf dem Model Context Protocol (MCP), unterstützt es die Plug-and-Play-Integration von Datenquellen und Werkzeugen;
  • Bietet eine intuitive Depth × Wide Control Plane, mit der Benutzer die Recherchekomplexität und -abdeckung flexibel über zwei Parameter anpassen können;
  • Enthält eine integrierte Logik zur Schätzung des Ressourcenverbrauchs, um Entwicklern bei der Kostenprognose zu helfen;
  • Unterstützt die vollständig private Bereitstellung, wodurch sichergestellt wird, dass sensible Unternehmensdaten in Ihrer Domäne verbleiben;
  • Kompatibel mit verschiedenen Modell-Backends wie OpenAI, Claude, DeepSeek und lokalen LLMs, um sowohl Compliance- als auch Leistungsanforderungen zu erfüllen.

Anwendungsfälle: Finanzanalyse, Marktforschung, Technologiebewertung, Gesundheitsberatung, Reiseplanung usw. Es kann als „automatisierter Recherche-Assistent“ innerhalb einer Organisation dienen.
👉 Probieren Sie es aus: https://www.deepwideresearch.com

FAQ

F1: Was ist der grundlegende Unterschied zwischen diesem System und einem Standardmodell zur Beantwortung von Fragen?

Standardmodelle stützen sich auf einen einzigen Kontext, um eine Antwort zu generieren. Im Gegensatz dazu verfügt dieses System über autonome Planungsfähigkeiten, die es ihm ermöglichen, proaktiv Informationslücken zu identifizieren, iterative Abrufe durchzuführen, Fakten quellenübergreifend zu validieren und einen strukturierten Bericht auszugeben.

F2: Muss es auf die Internetsuche angewiesen sein?

Ja, die aktuelle Architektur ist auf das Live-Web angewiesen, um die neuesten Informationen zu erhalten. Um privates Wissen (wie Unternehmensdokumente) zu verarbeiten, müssten Sie eine interne Wissensdatenbank integrieren und sicherstellen, dass das Abrufmodul hybride Quellen (öffentliches Web + privat) unterstützt. Der Deep Wide Research Agent unterstützt die Anbindung an lokale Wissensdatenbanken.

F3: Kann die Latenz von 3 Minuten reduziert werden?

Sie kann optimiert werden, indem die Breite (d. h. die Anzahl der Datenquellen) reduziert, Caching aktiviert und der Abruf parallelisiert wird. Der tiefgehende Schlussfolgerungsprozess selbst hat jedoch eine rechnerische Untergrenze. Für latenzempfindliche Szenarien wird eine kombinierte Strategie aus einem „Schnellmodus“ und manueller Überprüfung empfohlen.