OpenAI, ein Vorreiter bei großen Sprachmodellen, leistet auch Pionierarbeit bei der Implementierung von agentenbasierten Produkten. Im vergangenen Jahr hat OpenAI mehrere Agentenprodukte vorgestellt. In diesem Artikel werde ich die Entwicklung der Agentenprodukte von OpenAI und ihren Einfluss untersuchen.
Die früheste kommerzielle Anwendung von Agenten stammte aus dem im April 2023 eingeführten Plugin-Store von OpenAI. Benutzer konnten bis zu drei Plugins angeben, auf die ein Agent zugreifen und beim Chatten mit Benutzern helfen konnte.
Ursprünglich Anfang April 2023 veröffentlicht, wurde er als App-Store der nächsten Generation angesehen. Die folgenden Benutzerzahlen entsprachen jedoch nicht den Erwartungen. Schließlich wurde er im November 2023 eingestellt und durch GPTs und All-Tools ersetzt.
GPTs wurde als Agenten-Store am Dev Day im November 2023 eingeführt. Es konzentrierte sich auf die Fähigkeit, schnell einen eigenen Agenten durch natürlichsprachlichen Dialog zu entwickeln und bereitzustellen, und zielte auf ToC-Szenarien ab. Anfangs stieß es auf hohe Erwartungen.
Später stellte sich jedoch heraus, dass GPTs die Anforderungen einer tiefgreifenden Entwicklung nicht erfüllen und komplexe Szenarien nicht bewältigen können, während einfache Szenarien vollständig mit dem All-Tools-Agenten gelöst werden können.
Schließlich wurden GPTs eher zu einem Werkzeug für Startups, um Benutzer für ihre Produkte zu gewinnen, als zu einem Eckpfeiler für ein florierendes Ökosystem.
Der All-Tools-Agent wurde am Dev Day im November 2023 eingeführt. Er integrierte drei Tools: Websuche, Code-Interpretation und DALLE-3. Zusätzlich umfasste er implizit das Surfen im Internet und lokales RAG.
Diese Werkzeugintegrationen, indem sie die Kosten für die Konfiguration und Auswahl von Werkzeugen auf das Modell übertragen, beseitigen die Notwendigkeit für Benutzer, ihre eigenen Werkzeuge manuell einzurichten, was den Aufwand für den Benutzer objektiv verringert.
OpenAI entfernte jedoch Mitte 2024 heimlich das Websuch-Tool aus dem All-Tools-Agenten für ausgewählte Benutzer. Dieser AB-Test war so subtil, dass ihn viele Leute nicht bemerkten.
Diese Änderung war möglicherweise darauf zurückzuführen, dass die Verwendung der Suche in Szenarien, in denen sie nicht beabsichtigt war, die Qualität der Antworten beeinträchtigen konnte. Darüber hinaus erwies sich die Erkennung der Absicht der Benutzer, ob sie die Suche zur Beantwortung von Fragen verwenden sollten, als schwierig. Daher bleibt der Produktansatz von OpenAI zu diesem Thema unklar.
Dies könnte darauf hindeuten, dass es eine Differenzierung zwischen zwei Arten von Produkten gibt: KI-Suchmaschine und ChatBot.
Der Code Interpreter wurde Anfang Juli 2023 eingeführt und bot die Möglichkeit, dass ChatGPT Code nach Abschluss automatisch ausführt. Wenn der Code zu einem Fehler führt, generiert er automatisch neuen Code basierend auf dem Fehler und versucht, ihn erneut auszuführen. Bei drei oder mehr aufeinanderfolgenden Fehlern wird die Antwort „Aufgabe konnte nicht abgeschlossen werden“ ausgegeben. Der Code Interpreter kann bis zu einem gewissen Grad automatisch debuggen, was ihn ziemlich praktisch macht.
Anschließend wurde der Code Interpreter in Datenanalyse umbenannt. Im Zusammenhang mit Datenanalyse-Szenarien wurden viele Verbesserungen der Benutzererfahrung vorgenommen. Zum Beispiel können während der Datenverarbeitung generierte Bilder vergrößert und zentriert werden, und die Chat-Leiste wurde in die Seitenleiste verschoben, sodass Benutzer mit der Abbildung chatten können.
OpenAI-o1 ist kein Produkt, sondern ein Modell. Dieses Modell wurde im September 2024 veröffentlicht und zielt darauf ab, komplexe Probleme durch Erhöhung der Inferenzkosten und Verwendung von Chain of Thought (CoT) zu lösen. Es erfordert Nachdenken, bevor eine Antwort gegeben wird, sodass es als eine Form von Agent betrachtet werden kann, der entscheidet, worüber er als Nächstes nachdenken soll, basierend auf seinen früheren Gedanken. Dieses schrittweise Denken hilft dem Modell, schwierigere Probleme zu lösen. Dieser methodische Ansatz ermöglicht es dem Modell, komplexe Probleme anzugehen, die zuvor schwer zu lösen waren.
OpenAI hat viele Agenten-Szenarien ausprobiert. Plugin Store und GPTs haben gemischte Ergebnisse, nicht ganz ein Erfolg. Im Gegensatz dazu haben der Code Interpreter und der All-Tools-Agent einen erheblichen praktischen Nutzen gezeigt.
Ein Agent, der sich bei der Arbeit auf Werkzeuge verlässt, muss über genügend Daten auf Modellebene über diese Werkzeuge verfügen. Die einfache Verwendung von Prompts zum Aufrufen von Werkzeugen, wie im Plugin Store, ist mit den aktuellen Fähigkeiten des Modells derzeit ineffektiv.
Selbst ein Pionier wie OpenAI hat Schwierigkeiten zu entscheiden, wann in allgemeinen Szenarien eine Suchmaschine zur Unterstützung eingesetzt werden soll. Derzeit hat OpenAI dieses Problem einfach teilweise an die Benutzer übergeben (die entscheiden, ob sie ChatGPT oder SearchGPT verwenden), was auch Chancen für einige KI-Such-Startups bedeuten kann.
Ein praktischer Agent erfordert mehr als nur eine Programmierung auf Prompt-Ebene. Er benötigt zahlreiche Entscheidungsmechanismen, die oft durch Code und nicht durch natürlichsprachliche Prompts erreicht werden. Ironischerweise kann die eigene Assistentenplattform von OpenAI keinen so fortschrittlichen Agenten wie den Code Interpreter erstellen.