AIエージェント製品におけるOpenAIの動き

2024年10月3日Guantum @puppyone founder

大規模言語モデルのフロントランナーであるOpenAIは、エージェントベースの製品の実装においても先駆者となっています。昨年1年間を通じて、OpenAIは複数のエージェント製品を発表しました。この記事では、OpenAIのエージェント製品の進化とその影響について考察します。

プラグインストア

エージェントの最も初期の商用アプリケーションは、2023年4月にローンチされたOpenAIのプラグインストアに由来します。ユーザーは、エージェントがアクセスできるプラグインを最大3つまで指定し、ユーザーとのチャットを支援することができました。

2023年4月初旬に最初にリリースされたとき、それは次世代のアプリストアと見なされていました。しかし、その後のユーザー数は期待に達しませんでした。最終的に、2023年11月に閉鎖され、GPTsとAll-toolsに置き換えられました。

GPTs

GPTsは、2023年11月のDev Dayでエージェントストアとしてローンチされました。自然言語対話を通じて独自の開発を行い、ToCシナリオをターゲットに、独自のエージェントを迅速に開発・展開する能力に焦点を当てていました。当初は高い期待が寄せられていました。

しかし、後にGPTsは詳細な開発のニーズを満たすことができず、複雑なシナリオを処理できないことが証明されました。一方、単純なシナリオはall-toolsエージェントを使用して完全に解決できます。

最終的に、GPTsは、繁栄するエコシステムの礎というよりも、スタートアップが自社製品にユーザーを引き付けるためのツールのようになりました。

All-toolsエージェント

All-toolsエージェントは、2023年11月のDev Dayでローンチされました。Web検索、コード解釈、DALLE-3の3つのツールを統合しました。さらに、WebブラウジングとローカルRAGを暗黙的に含んでいました。

これらのツール統合は、ツールの構成と選択のコストをモデルに転嫁することで、ユーザーが手動で独自のツールを設定する必要性をなくし、客観的にユーザーの労力を削減します。

しかし、OpenAIは2024年半ばに、一部のユーザー向けにAll-toolsエージェントからWeb検索ツールを密かに削除しました。このABテストは非常に巧妙だったため、多くの人が気づきませんでした。

この変更は、意図しないシナリオで検索を使用すると応答の質が低下する可能性があるためと考えられます。さらに、質問に答えるために検索を使用するかどうかというユーザーの意図を認識することは困難であることが証明されました。したがって、この問題に対するOpenAIの製品アプローチは依然として曖昧です。

これは、AI検索エンジンとChatBotという2種類の製品間に差別化があることを示唆している可能性があります。

コードインタープリター(データ分析)

コードインタープリターは2023年7月初旬にローンチされ、ChatGPTがコードを終了した後に自動的に実行する機能を備えています。コードがエラーになった場合、エラーに基づいて新しいコードを自動的に生成し、再度実行を試みます。3回以上連続でエラーが発生した場合は、「タスクを完了できません」という応答が返されます。コードインタープリターはある程度の自動デバッグが可能で、非常に実用的です。

その後、コードインタープリターはデータ分析に名称変更されました。データ分析シナリオを中心に、多くのユーザーエクスペリエンスの向上が図られました。例えば、データ処理中に生成された画像を拡大して中央に配置したり、チャットバーをサイドバーに移動して、ユーザーが図とチャットできるようにしたりしました。

OpenAI-o1

OpenAI-o1は製品ではなく、モデルです。このモデルは2024年9月にリリースされ、推論コストを増やし、思考の連鎖(CoT)を使用することで複雑な問題を解決することを目的としています。回答を提供する前に考える必要があるため、エージェントの一形態と見なすことができ、以前の考えに基づいて次に何を考えるかを決定します。この段階的な思考により、モデルはより困難な問題を解決できます。この系統的なアプローチにより、モデルは以前は解決が困難だった複雑な問題に取り組むことができます。

まとめ

OpenAIは多くのエージェントシナリオを試してきました。プラグインストアとGPTsは、成功とは言えないまだら模様の結果に終わりました。対照的に、コードインタープリターとAll-toolsエージェントは、かなりの実用性を示しています。

プラグインストア VS All-toolsエージェント

仕事のためにツールに依存するエージェントは、これらのツールに関する十分なモデル層のデータを持っている必要があります。プラグインストアで行われたように、単にプロンプトを使用してツールを呼び出すだけでは、現在のモデルの能力では効果がありません。

All-toolsエージェント(Web検索あり)VS All-toolsエージェント(Web検索なし)

OpenAIのようなパイオニアでさえ、一般的なシナリオでサポートのために検索エンジンをいつ使用するかを決定するのに苦労しています。現在、OpenAIはこの問題を部分的にユーザーに委ねており(ChatGPTを使用するかSearchGPTを使用するかを決定する)、これは一部のAI検索スタートアップにとって機会を意味する可能性もあります。

コードインタープリター VS GPTs

実用的なエージェントには、プロンプトレベルのプログラミング以上のものが必要です。それには多数の意思決定メカニズムが必要であり、それらはしばしば自然言語プロンプトではなくコードによって達成されます。皮肉なことに、OpenAI自身のアシスタントプラットフォームは、コードインタープリターほど高度なエージェントを作成することはできません。