九成AI智能体面临“双重悬崖”困境：通用模型能力不足，垂直领域应用不精

2025年8月28日Ollie @puppyone

AI程序的成本 图片来源：Puppyone

Gartner 2025年报告指出，83%的企业AI项目未能达到预期。当AI行业还在争论“通用型”与“垂直型”的优劣时，一个残酷的现实正在浮现：90%的AI智能体公司正陷入“通用能力不足+垂直数据匮乏”的双重困境。在这个没有正确答案的困境中，90%的智能体项目正悄然走向失败，而幸存者们则在悬崖边缘寻找新的生存之道。

前方悬崖：通用智能体的“能力悬崖”

意图理解和指令遵循是智能体两项至关重要的基础能力。传统的基础大模型已无法满足复杂任务的需求。智能体需要多样化的工作流、系统和控制……将基础模型封装成可执行的系统。

通用智能体的愿景是诱人的——一个能够解决各领域问题的单一智能实体。

通用智能体在多轮对话中的能力悬崖 图片来源：Puppyone

然而，当大多数公司试图将所谓的通用AI智能体应用于专业场景时，它们频繁遭遇“能力悬崖”。斯坦福大学2025年的一项测试揭示了一个惊人的事实：当用户指令超过三轮对话时，通用智能体的意图识别准确率骤降至41%。尽管像Claude这样的模型已经将系统提示扩展到128K个token，但在多角色场景中，这些智能体仍然频繁混淆用户的真实需求，将简单的询问误判为复杂的决策。

更危险的是规模化幻觉的陷阱。

在金融风控等专业场景中，通用智能体生成内容的错误率高达52%，而且这些错误往往以专业的口吻呈现，例如编造监管规定或捏造统计数据。一家银行曾投入巨资开发通用风控智能体，结果发现在处理涉及“客户历史行为+市场波动 + 政策变化”的复合决策时，其错误率超过65%，迫使公司投入3.2倍的人力进行验证。麻省理工学院一项关于跨领域迁移的实验证明，当将在医疗领域训练的智能体转移到法律场景时，任务通过率从78%下降到32%。核心问题在于行动空间的不可泛化性——当工具使用接口从医疗API切换到金融API时，智能体无法自适应地调整其行动空间。

许多公司正陷入一个危险的误区：将“能够运行演示”等同于“具有商业价值”。

现实中并不相等 图片来源：Puppyone

一家汽车制造商曾投资2000万训练“通用客服智能体”，但在真实场景中失败了，因为它无法处理涉及“轮胎类型+天气+驾驶习惯”的复合决策。这揭示了一个关键悖论：通用智能体越是追求“无所不能”，其在垂直场景中的可靠性就越低。

“我们不是在训练智能体；我们是在为幻觉穿上专业的外衣。” 通用智能体的困境不在于它们无所不能，而在于它们在专业场景中连基本动作都无法可靠地执行。

后方悬崖：垂直智能体的“资源悬崖”

当公司转向垂直智能体寻求突破时，他们发现自己又掉入了另一个“资源悬崖”。

核心行业数据就像锁在孤岛上的宝藏：顶级医院的诊断数据、银行风控日志等关键资产，91%的公司因合规壁垒而无法获取。 更严重的是数据质量陷阱。一个工业AI团队花费八个月时间获取设备故障数据，但其中67%因标注标准不一致而作废——垂直数据需要行业知识才能正确使用。真实案例显示，一家医疗AI公司获取10万个合规且已标注的数据点的成本已从2022年的83万元飙升至2024年的412万元，增幅高达惊人的400%。

金融智能体工程师之间的差距 图片来源：Puppyone

比数据更稀缺的是能够弥合技术与行业之间鸿沟的复合型人才。 在金融智能体的开发中，既能掌握量化交易逻辑又能掌握RLHF（基于人类反馈的强化学习）调优的工程师供不应求，市场可用性不到需求的3.7%，导致供需比达到惊人的1:27。行业专家与AI工程师之间的沟通不畅常常导致灾难性后果：行业专家产生模糊的基于经验的“规则片段”，AI工程师则将其强行塞入“错误的知识图谱”，导致最终的智能体严重偏离业务本质。一个制造业客户要求开发“设备故障预测智能体”，但行业专家无法用技术术语描述“轴承噪音的光谱特征”，导致模型训练完全偏离了实际需求。

垂直智能体的困境不仅在于无法获取数据，还在于即使获取了数据也无法正确理解或使用。