九成AI智能体面临“双重悬崖”困境:通用模型能力不足,垂直领域应用不精

2025年8月28日Ollie @puppyone

AI程序的成本 图片来源:Puppyone

Gartner 2025年报告指出,83%的企业AI项目未能达到预期。当AI行业还在争论“通用型”与“垂直型”的优劣时,一个残酷的现实正在浮现:90%的AI智能体公司正陷入“通用能力不足+垂直数据匮乏”的双重困境。在这个没有正确答案的困境中,90%的智能体项目正悄然走向失败,而幸存者们则在悬崖边缘寻找新的生存之道。

前方悬崖:通用智能体的“能力悬崖”

意图理解和指令遵循是智能体两项至关重要的基础能力。传统的基础大模型已无法满足复杂任务的需求。智能体需要多样化的工作流、系统和控制……将基础模型封装成可执行的系统。

通用智能体的愿景是诱人的——一个能够解决各领域问题的单一智能实体。

通用智能体在多轮对话中的能力悬崖 图片来源:Puppyone

然而,当大多数公司试图将所谓的通用AI智能体应用于专业场景时,它们频繁遭遇“能力悬崖”。斯坦福大学2025年的一项测试揭示了一个惊人的事实:当用户指令超过三轮对话时,通用智能体的意图识别准确率骤降至41%。尽管像Claude这样的模型已经将系统提示扩展到128K个token,但在多角色场景中,这些智能体仍然频繁混淆用户的真实需求,将简单的询问误判为复杂的决策。

更危险的是规模化幻觉的陷阱。

在金融风控等专业场景中,通用智能体生成内容的错误率高达52%,而且这些错误往往以专业的口吻呈现,例如编造监管规定或捏造统计数据。一家银行曾投入巨资开发通用风控智能体,结果发现在处理涉及“客户历史行为+市场波动 + 政策变化”的复合决策时,其错误率超过65%,迫使公司投入3.2倍的人力进行验证。麻省理工学院一项关于跨领域迁移的实验证明,当将在医疗领域训练的智能体转移到法律场景时,任务通过率从78%下降到32%。核心问题在于行动空间的不可泛化性——当工具使用接口从医疗API切换到金融API时,智能体无法自适应地调整其行动空间。

许多公司正陷入一个危险的误区:将“能够运行演示”等同于“具有商业价值”。

现实中并不相等 图片来源:Puppyone

一家汽车制造商曾投资2000万训练“通用客服智能体”,但在真实场景中失败了,因为它无法处理涉及“轮胎类型+天气+驾驶习惯”的复合决策。这揭示了一个关键悖论:通用智能体越是追求“无所不能”,其在垂直场景中的可靠性就越低。

“我们不是在训练智能体;我们是在为幻觉穿上专业的外衣。” 通用智能体的困境不在于它们无所不能,而在于它们在专业场景中连基本动作都无法可靠地执行。

后方悬崖:垂直智能体的“资源悬崖”

当公司转向垂直智能体寻求突破时,他们发现自己又掉入了另一个“资源悬崖”。

核心行业数据就像锁在孤岛上的宝藏:顶级医院的诊断数据、银行风控日志等关键资产,91%的公司因合规壁垒而无法获取 更严重的是数据质量陷阱。一个工业AI团队花费八个月时间获取设备故障数据,但其中67%因标注标准不一致而作废——垂直数据需要行业知识才能正确使用。真实案例显示,一家医疗AI公司获取10万个合规且已标注的数据点的成本已从2022年的83万元飙升至2024年的412万元,增幅高达惊人的400%。

金融智能体工程师之间的差距 图片来源:Puppyone

比数据更稀缺的是能够弥合技术与行业之间鸿沟的复合型人才。 在金融智能体的开发中,既能掌握量化交易逻辑又能掌握RLHF(基于人类反馈的强化学习)调优的工程师供不应求,市场可用性不到需求的3.7%,导致供需比达到惊人的1:27。行业专家与AI工程师之间的沟通不畅常常导致灾难性后果:行业专家产生模糊的基于经验的“规则片段”,AI工程师则将其强行塞入“错误的知识图谱”,导致最终的智能体严重偏离业务本质。一个制造业客户要求开发“设备故障预测智能体”,但行业专家无法用技术术语描述“轴承噪音的光谱特征”,导致模型训练完全偏离了实际需求。

垂直智能体的困境不仅在于无法获取数据,还在于即使获取了数据也无法正确理解或使用。

生存策略:跨越双重悬崖的三步突破法

目前,大多数基础模型依赖于从GPT和Claude等系列模型中进行蒸馏。大部分数据尚未针对其自身的业务场景和地区/国家情况进行标注。简单地构建工作流并添加RAG(检索增强生成)等手段无法实现真正的端到端实施能力。

许多公司或组织甚至还没有理清自己的业务数据飞轮,更不用说用智能体来驱动业务增长了。

由智能体驱动的数据飞轮 图片来源:pexels

在这种尴尬的处境下,更重要的或许是能够利用智能体真正创造更多具有商业附加值的场景。如果无法获得高准确率,可以从要求较低准确率的创意领域入手;如果缺乏数据,可以探索拥有更多开源数据的业务切入点。最根本的是获取更多真实案例,从而在实战中构建自己的智能体护城河。

如果您也想抛开手头复杂的工作,请点击侧边的“开始使用”,探索puppyone带来的商业可能性。

puppyone一直在探索利用动态交互式RAG和智能体在工作流中为实体业务增长服务。 我们希望用每一个端到端的案例来启发用户,而不是夸耀我们的通用性,也不局限于单一的垂直场景。我们现已在客服、租房、法律事务、文档管理等领域实现了众多案例。您可以点击观看案例视频

结论

优秀的案例和公司都有一个共同的特点:他们不再专注于创造“完美的智能体”,而是构建一个“人机协同决策系统”,在关键节点设置安全护栏,在常规场景中释放智能体效率。

对于在悬崖边缘摇摇欲坠的公司来说,首要任务是面对现实:通用智能体无法做到一切,而垂直智能体也无法牢牢抓住核心资源。真正的出路在于系统性思维——有机地结合行业知识蒸馏、小数据增强和人机协同验证,形成一个可执行的“三步突破法”。

puppyone注意到的悬崖 图片来源:Puppyone

我们可能会反复问Manus/Genspark,如果有一天OpenAIGoogle真的实现了通用智能体,你们的竞争力在哪里?我们也可能会问OpenAI和Google,在扩展场景和泛化工作流方面真正的困难是什么。本质上,这是一条悬在悬崖之间的钢丝。

您的公司准备好走这条钢丝了吗?