Le Mouvement d'OpenAI dans les Produits d'Agents IA

3 octobre 2024Guantum @puppyone founder

OpenAI, un leader dans les grands modèles de langage, a aussi été pionnier dans l'implémentation de produits basés sur des agents. Tout au long de l'année passée, OpenAI a dévoilé plusieurs produits d'agents. J'examinerai la progression des produits d'agents d'OpenAI et leur influence dans cet article.

Plugin Store

La première application commerciale d'agents provenait du Plugin store d'OpenAI lancé en avril 2023. Les utilisateurs pouvaient spécifier jusqu'à trois plugins qu'un agent pouvait accéder et aider dans les conversations avec les utilisateurs.

Initialement publié début avril 2023, il était considéré comme l'app store de prochaine génération. Cependant, le nombre d'utilisateurs suivants n'a pas répondu aux attentes. Finalement, il a été fermé en novembre 2023 et remplacé par les GPT et Tous-outils.

GPTs

Les GPT ont été lancés comme le magasin d'agents lors du Dev Day en novembre 2023. Ils se concentraient sur la capacité de développer et déployer rapidement son propre agent par le dialogue en langage naturel, ciblant les scénarios ToC. Initialement, ils ont rencontré de grandes attentes.

Cependant, il a été prouvé plus tard que les GPT ne peuvent pas répondre aux besoins de développement approfondi et ne peuvent pas gérer des scénarios complexes, alors que les scénarios simples peuvent être complètement résolus en utilisant l'agent tous-outils.

Finalement, les GPT sont devenus plus comme un outil pour les startups pour attirer les utilisateurs vers leurs produits, plutôt qu'une pierre angulaire pour un écosystème florissant.

Agent Tous-Outils

L'agent tous-outils a été lancé lors du Dev Day en novembre 2023. Il intégrait trois outils : recherche web, interprétation de code et DALLE-3. De plus, il incluait implicitement la navigation web et le RAG local.

Ces intégrations d'outils, en transférant le coût de configuration et de sélection d'outils sur le modèle, supprime le besoin pour les utilisateurs de configurer manuellement leurs propres outils, diminuant objectivement l'effort de l'utilisateur.

Cependant, OpenAI a secrètement retiré l'outil de recherche web de l'agent tous-outils mi-2024 pour des utilisateurs sélectionnés. Ce test AB était si subtil que beaucoup de personnes ne l'ont pas remarqué.

Ce changement était possiblement parce qu'utiliser la recherche dans des scénarios où elle n'était pas prévue pourrait diminuer la qualité des réponses. De plus, reconnaître l'intention des utilisateurs sur l'utilisation de la recherche pour répondre aux questions s'est avéré difficile. Par conséquent, l'approche produit d'OpenAI à ce problème reste ambiguë.

Cela peut suggérer qu'il y a une différenciation entre deux types de produits : moteur de recherche IA et ChatBot.

Interpréteur de Code (Analyse de Données)

L'interpréteur de code a été lancé début juillet 2023, présentant la capacité pour ChatGPT d'exécuter automatiquement le code après l'avoir terminé. Si le code résulte en une erreur, il génère automatiquement un nouveau code basé sur l'erreur et tente de l'exécuter à nouveau. S'il y a trois erreurs consécutives ou plus, une réponse 'Impossible de compléter la tâche' sera donnée. L'interpréteur de code peut automatiquement déboguer dans une certaine mesure, le rendant assez pratique.

Par la suite, l'interpréteur de code a été renommé Analyse de données. Beaucoup d'améliorations d'expérience utilisateur ont été faites autour des scénarios d'analyse de données. Par exemple, les images générées pendant le traitement de données peuvent être agrandies et centrées, et la barre de chat a été déplacée vers la barre latérale, permettant aux utilisateurs de chatter avec la figure.

OpenAI-o1

OpenAI-o1 n'est pas un produit, mais un modèle. Ce modèle a été publié en septembre 2024, visant à résoudre des problèmes complexes en augmentant les coûts d'inférence et utilisant la Chaîne de Pensée (CoT). Il nécessite de réfléchir avant de fournir une réponse, donc il peut être considéré comme une forme d'agent, décidant à quoi penser ensuite basé sur ses pensées précédentes. Cette pensée étape par étape aide le modèle à résoudre des problèmes plus difficiles. Cette approche méthodique permet au modèle de s'attaquer à des problèmes complexes qui étaient précédemment difficiles à résoudre.

Résumé

OpenAI a essayé de nombreux scénarios d'agents. Le Plugin store et les GPT ont eu des résultats mitigés, pas vraiment un succès. En contraste, l'Interpréteur de Code et l'Agent Tous-outils ont montré une utilité pratique considérable.

Plugin store VS Agent tous-outils

Un agent qui s'appuie sur des outils pour le travail doit avoir suffisamment de données au niveau modèle sur ces outils. Utiliser simplement des prompts pour appeler des outils, comme fait dans le plugin store, est actuellement inefficace avec les capacités du modèle.

Agent tous-outils (avec recherche web) VS Agent tous-outils (sans recherche web)

Même un pionnier comme OpenAI lutte avec la décision de quand utiliser un moteur de recherche pour le support dans des scénarios généraux. Actuellement, OpenAI a simplement remis cette question aux utilisateurs partiellement (décider d'utiliser ChatGPT ou SearchGPT), ce qui peut aussi signifier des opportunités pour certaines startups de recherche IA.

Interpréteur de code VS GPTs

Un agent pratique nécessite plus que juste la programmation au niveau prompt. Il nécessite de nombreux mécanismes de prise de décision, qui sont souvent atteints par le code plutôt que par des prompts en langage naturel. Ironiquement, la propre plateforme d'assistant d'OpenAI ne peut pas créer un agent aussi avancé que l'interpréteur de code.