AIエージェントの90%が「二重の崖」に直面：汎用は達成できず、垂直は獲得できない

2025年8月28日Ollie @puppyone

AIプログラムのコスト 画像ソース:puppyone

ガートナー2025年レポートによると、企業のAIプロジェクトの83%が期待に応えられていません。AI業界では「ジェネラリスト」対「垂直スペシャリスト」のメリットについてまだ議論が続いていますが、厳しい現実が浮かび上がっています。AIエージェント企業の90%が、「不十分な汎用能力＋垂直データの欠如」という二重の制約に陥っているのです。正解のないこのジレンマの中で、エージェントプロジェクトの90%が静かに失敗に向かっており、生き残った企業は崖っぷちで生き残るための新しい方法を模索しています。

前の崖：汎用エージェントの「能力の崖」

意図の理解と指示の遵守は、エージェントにとって2つの重要な基本能力です。従来の基盤となる大規模モデルは、もはや複雑なタスクの要求を満たすことができません。エージェントには、多様なワークフロー、システム、および制御が必要であり、ベースモデルを実装可能なシステムにカプセル化する必要があります。

汎用エージェントのビジョンは魅力的です—さまざまな分野の問題を解決できる単一のインテリジェントなエンティティです。

マルチ対話による汎用エージェントの崖 画像ソース:puppyone

しかし、ほとんどの企業が、いわゆる汎用AIエージェントを専門的なシナリオに適用しようとすると、頻繁に「能力の崖」に遭遇します。スタンフォード大学による2025年のテストでは、衝撃的な事実が明らかになりました。ユーザーの指示が3回の対話を超えると、汎用エージェントの意図認識精度は41%に急落します。Claudeのようなモデルはシステムプロンプトを128Kトークンに拡張しましたが、マルチロールシナリオでは、これらのエージェントは依然としてユーザーの真のニーズを頻繁に混同し、簡単な問い合わせを複雑な決定と誤解します。

さらに危険なのは、スケールアップされた幻覚の罠です。

金融リスク管理などの専門的なシナリオでは、汎用エージェントによって生成されるコンテンツのエラー率は52%にも達し、これらのエラーは、規制条項を捏造したり、統計データをでっち上げたりするなど、専門的な口調で提示されることがよくあります。ある銀行はかつて、汎用リスク管理エージェントの開発に多額の投資をしましたが、「顧客の過去の行動＋市場の変動＋ポリシーの変更」を含む複合的な決定を処理する際に、エラー率が65%を超えたため、検証のために3.2倍の人員を投資せざるを得なくなりました。MITの分野横断的な移行に関する実験では、医療分野で訓練されたエージェントを法律シナリオに移した場合、タスクの合格率は78%から32%に低下したことが証明されました。核心的な問題は、アクションスペースの非一般化可能性にあります。ツール使用インターフェースが医療APIから金融APIに切り替わると、エージェントはアクションスペースを適応的に調整できません。

多くの企業が、「デモを実行できる」ことと「ビジネス価値がある」ことを同一視するという危険な誤解に陥っています。

現実では等しくない 画像ソース:puppyone

ある自動車メーカーはかつて、「汎用顧客サービスエージェント」のトレーニングに2,000万ドルを投資しましたが、「タイヤの種類＋天候＋運転習慣」を含む複合的な決定を処理できなかったため、実際のシナリオでは失敗しました。これは重要なパラドックスを明らかにしています。汎用エージェントが「万能」を追求すればするほど、垂直シナリオでの信頼性は低くなります。

「私たちはインテリジェントなエージェントを訓練しているのではなく、幻覚にプロの服装を着せているのです。」 汎用エージェントのジレンマは、すべてができるわけではなく、専門的なシナリオで基本的なアクションさえ確実に実行できないということです。

後ろの崖：垂直エージェントの「リソースの崖」

企業が突破口を求めて垂直エージェントに目を向けると、別の「リソースの崖」に陥っていることに気づきます。

**中核となる業界データは、島にロックされた宝物のようです。一流病院の診断データ、銀行のリスク管理ログ、その他の主要な資産は、コンプライアンスの障壁のために91%の企業がアクセスできません。**さらに深刻なのは、データ品質の罠です。ある産業AIチームは、機器の故障データを取得するために8か月を費やしましたが、ラベリング基準の不一致により、その67%が無効になりました。垂直データは、正しく使用するために業界のノウハウが必要です。実際のケースでは、医療AI企業が10万件のコンプライアンスに準拠し、ラベル付けされたデータポイントを取得するためのコストは、2022年の83万元から2024年には412万元に急騰し、400%という驚異的な増加を記録しました。

金融エージェントエンジニア間のギャップ 画像ソース:puppyone

データよりもさらに希少なのは、テクノロジーと業界のギャップを埋めることができるハイブリッドな人材です。 金融エージェントの開発では、定量的取引ロジックとRLHF（人間からのフィードバックによる強化学習）の両方を習得できるエンジニアが不足しており、市場での入手可能性は需要の3.7%未満であり、供給対需要の比率は1:27という驚異的なものになっています。業界の専門家とAIエンジニアの間のコミュニケーションの断絶は、しばしば悲惨な結果を招きます。業界の専門家は、曖昧な経験ベースの「ルール断片」を作成し、AIエンジニアはそれを「誤った知識グラフ」に強制的に押し込み、最終的なエージェントがビジネスの本質から大幅に逸脱する原因となります。ある製造業のクライアントは、「デバイス故障予測エージェント」の開発を依頼しましたが、業界の専門家は「ベアリングノイズのスペクトル特性」を技術用語で説明できなかったため、モデルのトレーニングが実際の要件を完全に外してしまいました。

垂直エージェントのジレンマは、データを取得できないことだけでなく、データを取得しても正しく理解または使用できないことにもあります。

生存戦略：二重の崖を乗り越えるための3段階の突破方法

現在、ほとんどのベースモデルは、GPTやClaudeなどのモデルシリーズからの蒸留に依存しています。データの大部分は、独自のビジネスシナリオや地域/国の状況に合わせてラベル付けされていません。単にワークフローを構築し、RAG（Retrieval-Augmented Generation）やその他の手段を追加するだけでは、真にエンドツーエンドの実装能力を達成することはできません。

多くの企業や組織は、エージェントでビジネスの成長を推進するどころか、自社のビジネスデータのフライホイールさえ整理していません。

エージェントによって駆動されるデータフライホイール 画像ソース:pexels

この厄介な状況では、エージェントを真に活用して、より多くのビジネス価値を付加するシナリオを作成できることが、より重要になるかもしれません。高い精度が得られない場合は、より低い精度が要求される創造的な分野から始めることができます。データが不足している場合は、より多くのオープンソースデータを持つビジネスの入り口を探ることができます。基本的なことは、より多くの実例を入手し、実際の戦闘で独自のエージェントの堀を築くことです。

あなたも手元の複雑な仕事を捨てたい場合は、横にある「始める」をクリックして、puppyoneがもたらすビジネスの可能性を探ってください。

puppyoneは、ワークフローにおける真のビジネス成長に貢献するために、動的な対話型RAGとエージェントの使用を常に探求してきました。 私たちは、一般性を誇示するのではなく、単一の垂直シナリオに限定されるのでもなく、各エンドツーエンドのケースでユーザーにインスピレーションを与えることを望んでいます。私たちは現在、顧客サービス、住宅賃貸、法務、文書管理などの分野で数多くのケースを実装しています。ケースビデオを見るにはクリックしてください。

結論

優れたケースと企業はすべて、共通の特徴を共有しています。彼らはもはや「完璧なエージェント」を作成することに焦点を当てるのではなく、「人間と機械の協調的な意思決定システム」を構築し、重要なノードに安全レールを設置し、日常的なシナリオでエージェントの効率を最大限に引き出すことに重点を置いています。

崖っぷちに立たされている企業にとって、主な課題は現実に直面することです。汎用エージェントはすべてができるわけではなく、垂直エージェントは中核となるリソースをしっかりと把握することはできません。真の出口は、体系的な思考にあります。業界知識の蒸留、小規模データの強化、および人間と機械の協調的な検証を有機的に組み合わせて、実装可能な「3段階の突破方法」を形成することです。

puppyagentによって気づかれた崖 画像ソース:puppyone

私たちは、Manus/Gensparkに繰り返し尋ねるかもしれません。もしある日OpenAIとGoogleが本当に汎用エージェントを達成したら、あなたの競争力はどこにあるのでしょうか？私たちはまた、OpenAIとGoogleに、シナリオのスケーリングとワークフローの一般化における本当の困難は何であるかを尋ねるかもしれません。本質的に、これは崖の間にぶら下がっている綱渡りです。

あなたの会社はこの綱渡りをする準備ができていますか？