2025上半年，AI Agent领域有什么变化和机会？ [复制链接]

see122

军衔等级：

中校

电梯直达

1^# 大中小

发表于 2025-7-11 19:20:15 |只看该作者 |倒序浏览

2025年上半年， AI Agent（AI智能体）迅猛发展，点燃了 “万物皆可Agent” 的热潮。

这股热潮首先体现在技术底层—— 模型领域的激烈“军备竞赛” 上。年初DeepSeek打破了推理模型赛道OpenAI一家独大的局面，震撼业界。随后OpenAI、Anthropic、Google等头部厂商轮番上阵，相继推出o3 Pro、Claude 4系列和Gemini 2.5 Pro等重磅模型。

模型能力的跃升，直接推动了应用层面的爆发。随着OpenAI发布Operator（上网执行任务）与Deep Research（深度研究）这两款产品，AI Agent赛道的竞争骤然加剧，新产品不断涌现。

大厂们纷纷押注Agent赛道：Google预计今年发布能够操作浏览器和其他软件的Project Mariner，百度推出定位于通用超级智能体的“心响”APP，阿里的“心流”项目则深入探索Agent的人机协同效率。然而， PMF（产品市场匹配度）、商业化落地路径和产品核心壁垒等问题仍等关键问题，仍有待行业进一步探索。

AI Agent是继提示词（prompt）、工作流（workflow）之后， AI应用发展的第三阶段。AI Agent的核心价值在于其感知环境、自主决策及工具使用（Tool Use）能力。我们认为，要实现真正的突破和解决前述挑战，强化学习驱动的持续迭代将是Agent发展的关键路径。

上周日，围绕2025年上半年AI Agent的创业热潮、技术突破和发展趋势，峰瑞资本执行董事刘鹏琦和峰瑞资本副总裁颜黔杭在一场直播中进行了深入探讨。他们讨论的问题包括但不限于：

如何理解 AI Agent这个概念？在这一赛道上，行业有哪些共识和分歧？

AI应用究竟发生了哪些技术突破？为何业界普遍看好强化学习驱动的Agent？

“AI圣经”《苦涩的教训》（The Bitter Lesson）中有哪些核心观点？这些观点对AI Agent的发展又有哪些启示？

Agent该如何实现落地？在这个过程中，有哪些创新机会？未来的长期壁垒又会是什么？

我们编辑了直播的部分内容，希望能带来新的思考角度。

/ 01 /这半年，AI领域有哪些超预期事件？

颜黔杭：从年初DeepSeek爆火到如今Agent应用涌现，这半年 AI领域有哪些超预期事件？

刘鹏琦：今年上半年，自DeepSeek发布后，整个AI赛道明显加速，模型侧与应用侧均迎来关键变化。

一，在模型侧，以DeepSeek为代表的推理模型迅速打开市场，推动各大厂商加速入局，行业开启 “军备竞赛” 状态。DeepSeek更深远的意义在于，基于强化学习的推理模型由此进入公众视野，正式开辟了大模型新赛道。

除了产品层面的突破，模型迭代速度也远超预期：OpenAI推出o3 Pro、Anthropic发布Claude 4系列、Google发布Gemini 2.5 Pro。头部厂商轮番“打榜”，彻底打破了此前关于“模型迭代放缓”的预测。与此同时，部分公司正在重整旗鼓，比如Meta近期宣布投资数据标签初创公司Scale AI 150亿美元，并重组AI部门。

值得关注的是，DeepSeek证明了国内外大模型技术并未有显著差距。大厂也加紧模型层面的布局，比如阿里发布通义千问3.0、字节发布豆包1.6版本；中国“AI六小龙”公司（智谱、MiniMax、月之暗面、阶跃星辰、百川智能、零一万物）虽有部分企业稍显滞后，但头部产品迭代速度仍然迅猛。

二，应用侧的标志性事件，是今年年初 OpenAI 相继发布 Operator （执行简单任务的Agent）与 Deep Research （进行深度研究的Agent）这两款产品。2025由此被业界认为是 “AI Agent元年” 。

在AI Agent这波创业热潮中，中国团队身影频现：Manus、Genspark等Agent产品引起广泛热议和关注；Minimax、月之暗面等大模型厂商也加入战局，发布自有Agent产品。

三， AI编程赛道验证了PMF，即产品与用户需求实现契合。火爆出圈的工具Cursor、Windsurf被OpenAI收购，Lovable、Replit、Bolt等企业的快速发展，均成为行业热议事件。

基于这些可以看到，在AI领域，整个市场和赛道都处在热潮之中。

颜黔杭：模型推理能力的突破是上半年的另一大看点。行业关注的焦点正从 “预训练” 的Scaling Law（数据规模效应）转向 “后训练” 的Scaling Law。

预训练是指通过参数、数据和算力提升模型基础能力。后训练则是通过强化学习、人类反馈等技术手段优化模型性能。此前，Scaling Law效果，主要指持续投入参数、数据和算力，以获得越来越强大的模型。

转折点出现在 DeepSeek团队推出R1模型，在模型后训练阶段大规模应用强化学习技术，即使标注数据极少，也能提升模型推理能力、进而实现推理性能的Scaling Law。

应用方面有一个有意思的现象，OpenAI、Google以及微软等巨头纷纷入局Agent领域，甚至有观点认为，OpenAI本质上可视为“语言模型驱动的AI Agent公司”。

此前，我们认为，AI应用需要与模型厂商保持一定距离，否则在模型边界不明确时，应用可能被快速迭代淹没。但在今年这波Agent浪潮中，部分主做模型的企业，因在用户体验交付上表现出色，反而在应用市场占据一席之地。

当前市场中兴起了 “万物皆可Agent” 的热潮，大厂介入将模型侧推向“全民军备竞赛”，Gemini 2.5提出AIOS概念（大模型智能体操作系统，即将大型语言模型嵌入操作系统OS作为大脑），国内“六小龙”与大厂间的竞争进入白热化；应用侧则以Cursor等企业为代表，在现有场景中推进Agent的推广与验证。

刘鹏琦：这场战争远远没有结束。大模型厂商在做自己的应用和Agent产品，也有很多创业公司在做，模型和应用的边界变得越来越模糊，未来谁更有可能长期跑赢也有待观察。

回顾这上半年，可能每天都有新的事情发生，很多结论被快速证伪。当下我们的很多观点也不一定正确，这是一个保持开放、不断学习的过程。

/ 02 /AI 应用的三次进化， Agent范式从何而来?

颜黔杭：“AI Agent”的具体定义是什么？不同应用之间的本质区别又在哪里？

刘鹏琦：自2022年底OpenAI发布ChatGPT，助推AI应用进入新赛道以来，AI应用大致有三种任务处理方式：

第一阶段是 prompt （提示词，即对话交互）形式，用户输入Prompt、提出需求，大模型直接输出答案。这是最基础也是普遍的AI应用形态。

第二阶段是 AI Workflow（工作流）形式，大模型外部接入数据源，通过人工预先定义的节点与路径，多步骤地完成任务需求。

与第一阶段相比，Workflow增加了数据读取与处理环节，但仍依赖专家预设的固定流程，虽然过程可控，但灵活性、通用性不足。当前落地及商业化较好的应用多是基于这一形态，比如Dify（提供低代码开发平台，支持快速构建营销文案、用户画像分析）、Coze（智能客服、语音助手）和LangFlow（低代码、可视化的AI 应用构建工具）。

随着OpenAI发布Operator与Deep Research，AI应用迈入第三阶段—— AI Agent（智能体），其广义定义是“能够自主感知环境、自主决策、执行任务并达成目标的智能系统”。这可以逐一拆解关键词来理解：

“感知环境” ，可以让AI更全面理解用户的需求、指令和所处上下文的信息，甚至包括长期记忆；同时，AI还可以进一步改变环境，这就要依靠在“执行任务”过程中 Tool Use（工具使用）能力上的关键突破。

“自主决策与规划” ，与Workflow依赖专家预设的固定流程不同，Agent能够自主决策任务步骤。尽管Workflow在可控性方面具有优势，但在灵活性、通用性与泛化能力上存在局限；而具备自主决策能力的Agent，虽然目前在任务执行成功率上仍有挑战，却展现出了远超预期的潜力。这些特性的叠加，推动第三阶段的Agent应用形态走向大众视野。

/ 03 /Tool Use和强化学习，如何赋能Agent？

颜黔杭：结合鹏琦提到，Agent核心特征在于感知环境、自主决策、Tool Use能力，那么相较于以ChatGPT为代表的AI应用，Agent的核心优势究竟体现在哪些方面？当前哪些具体赛道更适合落地应用，又存在哪些挑战？

刘鹏琦：今年Agent的核心变化在于， Tool Use能力取得了突破。

具体来看，从编程到 browser-use （Agent模拟用户在浏览器中的操作），再到 computer-use （Agent操控计算机系统），以及随着 MCP通用接口（Model Context Protocol，模型上下文协议，即通过制定统一规范、实现 AI 模型与外部资源的无缝对接）普及率的提升，Agent的Tool Use能力得到增强，能够更高效地从外部获取信息。

此前大模型对于世界知识的核心局限在于，训练数据仅包含截止到某日的公开数据，缺乏时效性数据以及私有领域数据注入。具备Tool Use能力后，AI能自主检索信息、与外部世界交互，信息获取能力较此前版本实现了数量级上的提升。

如今，Agent已在开发与编程赛道上验证了PMF。以Cursor为代表的工具证明，编程领域的部分闭环操作完全可以交由Agent完成。更关键的是，今年大模型借助强化学习的技术突破，显著提升了推理能力，进一步增强了Agent的实用性。

颜黔杭：我来补充一下为什么Agent能够率先在AI编程赛道上跑通。编程本质上是 “文字+语言数据” 的结合，其训练数据高度结构化，因此ChatGPT刚问世时便展现出较强的代码生成能力，不过早期的代码常常出现幻觉问题，无法直接对接到编译器运行验证。

通过整合过去二三十年来成熟的软件开发工具链，AI编程可以在代码编写、调试到编译输出等环节中形成完整的闭环系统，在虚拟计算机的环境下独立运行，从而为Agent的高效迭代和实验验证提供有力支持。

相比之下，具身智能场景的落地难度更高。其核心难点在于，机器人需要与物理世界直接交互，从代码指令到实际执行之间存在显著鸿沟，仅靠模型层面的迭代难以让Agent在具身智能领域快速突破。

Tool Use助力了Agent，那么，强化学习又会让Agent获得怎样的发展？

刘鹏琦：这一轮Agent的落地起点确实是Tool Use能力的提升，但未来仍要依赖强化学习从而进一步发展。在我看来，基于强化学习迭代的Agent ，才是未来 AI应用走向“终极智能” 的路径。

事实上，“Agent”概念最早便源于强化学习领域。经典教材《Reinforcement Learning: An Introduction》中对Agent的定义是“在环境中执行动作，并根据环境反馈调整行为，以实现长期目标”，这与当下AI应用讨论的Agent概念高度契合。

“强化学习”最早起源于计算机科学，后与认知科学、心理学、神经科学等学科相互促进，不仅代表了计算机科学领域迭代、演进的路径，更是普世进化的规律之一。

包括强化学习在内，大模型的演进也分为三个阶段。举个生活化例子，学生上学读书、听课类似大模型的“自监督模仿学习”（基于大量公开无标注数据的预训练阶段）；老师讲解例题是“监督微调”（基于特定标注数据的监督训练）；通过写作业、考试获得反馈并真正掌握知识，则是典型的“强化学习”（使用奖励模型来指导训练基础模型）。这一规律同样适用于生物进化，比如每个物种的基因组合就是不同环境的Agent，同样需要通过适者生存的进化过程变得更强。

编程领域之所以能快速验证Agent价值，在于其具备清晰的数据反馈闭环环境，代码正确与否都很好验证，有非常明确的奖励信号，Agent能力得以快速迭代。

未来，若想让Agent超越竞争对手甚至人类智能，必须让它进入强化学习的闭环，自主探索学习方法，而非依赖人类指导。

颜黔杭：过去强化学习已在机器人、游戏AI等领域有诸多探索，已经成为推动AI发展的基础方法之一。

OpenAI早期便通过强化学习开发机器人及游戏AI应用。当大语言模型的基础性能足够强大后，我们会发现强化学习对提升模型的能力上限起到了关键作用。换言之，强化学习需在基础模型具备一定能力后，才能释放其最大价值。

以网球运动来类比，必须先由教练教会基础挥拍动作，能通过练习持续优化迭代；如果基础动作未掌握或存在错误，大量强化训练反而可能固化错误、影响性能、限制上限。因此，模型的最终能力上限，既由基础模型性能决定，也由强化学习能力决定。

因此，在强化学习用于发展Agent之前，研发者需要考虑两个问题，其一，Agent是否符合“先具备良好基础性能，再通过强化学习提升上限”的规律？其二，行业何时会进入“强化学习对Agent带来巨幅提升”的关键阶段？

刘鹏琦：从当前观察看，尽管多家厂商发布了自有Agent，但细究技术文档会发现，大家的路径差异显著，可大致分为两种形态：

第一种是完全端到端（end to end）、基于强化学习训练的Agent，以OpenAI的Deep Research、Kimi发布的Researcher为代表，Manus就是其中的典型代表，目前看起来更适合广度优先的通用泛化型任务。“端到端”指模型的上下文理解、工具调用、多步骤思维链等全流程在一个整体框架下完成，目前仅模型厂商具备此类能力。

第二种是模块化拆分的Agent，即在工程框架下将不同能力拆解给不同模型或Agent来共同完成一个任务。这种模块化的方式目前看起来更适合广度优先的通用泛化型任务。在这个框架下，比如决策推理的部分可以使用类似DeepSeek R1的模型，而编程的部分可以使用Claude模型。强化学习主要作用于各模块单点能力提升，最后再通过外部工程连接，以实现更强的整体性能。

颜黔杭：目前，强化学习对单点能力的提升已见成效，但要实现端到端的强化学习仍需突破。这类似模型的“后训练”（Post-training，指通过数据驱动和算法干预，增强大模型在专业技术领域的适应能力），既需要对大模型后训练的深刻理解，也需要产品化能力。目前来看，仅有少数模型厂商，以及兼具“模型+产品”的创业团队具备这样的综合能力。

/ 04 /“AI圣经”如何影响Agent的发展？

颜黔杭：当前Agent领域的一个争议焦点在于技术路线的选择 ——到底是选择Workflow型Agent还是基于强化学习的Agent？

具体来看， Workflow型Agent 强调可视化、可解释性和可控性，具备较高的透明度和稳定性，因此在短期内更适合作为商业化落地的技术路径。而基于强化学习的Agent 虽然理论上具有更高的性能上限，但因其行为难以预测、可控性较差，仍面临较大的技术与应用挑战，因此被视为一个更具探索性、面向长期发展的方向。

机器学习先驱Rich Sutton在2019年的一篇经典文章《苦涩的教训》（The Bitter Lesson）提出，过度依赖人类先验知识和特征工程提升模型性能的方法，其效果不如算力与数据利用率的提升方法。这一预言精准指向了大语言模型的发展路线。以OpenAI为例，它采用的Decode-only架构在算力与数据规模化利用上具有优势，现在已是大语言模型的主流架构。

那么，《苦涩的教训》的核心观点是否也适用于AI Agent领域？

刘鹏琦：强化学习驱动的Agent非常符合《苦涩的教训》的结论，强化学习本质上就是不需要教模型太多东西，只给它先验能力，未来怎么迭代、怎么提高要靠Agent自己。

具体来看，想要实现Agent自主学习这一目标需要做好两个方面。

其一，需要一定的先验能力。对“小白”水平的Agent而言，搜索路径可能过多，难以找到最优解。因此，Agent需要借助先验能力来提升自己，既包括模型本身的能力，也涵盖垂直领域积累的knowhow 。

其二，构建相对好的环境。业界对于怎么构建环境现在有些争议。目前市面上的通用Agent大多在追求通过对话聊天框理解用户需求，交付结果。但语言作为信息的压缩形式，在复杂场景中难以详细描述需求或结果。因此，多模态信息也很重要。

比如图形界面的交互，设计绘图有时候需要对图片进行圈选和修改，这类操作无法仅通过语言完成，这就需要更复杂的交互工具，让用户参与到整个流程。用户的反馈信号能进一步帮助Agent去迭代能力。

所以第二点很重要，产品需在模型与用户间构建丰富的上下文环境与反馈闭环。比如，Cursor在早期坚持使用IDE（集成开发环境），正是为了借助与用户的深度交互，采集更多反馈信号。

总结一下，想要让Agent有自我迭代的可能性，一方面需要基于行业和垂直领域knowhow的先验能力让产品先实现PMF ，另一方面还要搭建有充分反馈和上下文的人机交互环境用以实现长期的自我学习和迭代。

/ 05 /Agent将如何落地？有哪些创新机会？

颜黔杭：我们回顾了AI Agent这类应用的发展以及未来预期，回到创业投资上，目前AI agent 落地的痛点和瓶颈是什么？有哪些共识和争议？

刘鹏琦：2025年上半年，有很多Agent应用落地，这些应用在使用工具和推理能力上都有了长足的进步，但大家对Agent的评价还是褒贬不一。

Agent仍然面临很多技术层面的挑战，比如能抓取的上下文是否足够长、如何管理记忆机制，以及针对多数主观问题和随机结果如何推理。

在使用工具层面，Agent在浏览器访问搜索等工具的能力已经很强，但想要和真实物理环境、企业内部的复杂软件系统进行交互，还有很长的路要走。在这几点没有充分发展前，Agent的发展上限仍然比较低。

第二个很难回答的问题是，未来Agent 应用的壁垒是什么？如果借鉴上一代互联网应用的评价标准之一——规模效应，那对于Agent应用而言，可能其壁垒在于，能不能通过更多用户和使用，提升产品体验和模型能力。目前的Agent产品或许还没到这一步，需要继续观察。

第三个问题是，Agent的商业模式会如何演化？现在Agent主要是订阅模式，等到未来有更多垂类Agent出现，订阅模式是否能长期可持续？

一个猜想是，Agent可能会转向另外一种模式，按token使用量付费，这也是目前ToB服务的主要模式。但这种模式对于C端可能存在局限性，因为用户很少有按成本付费的习惯和意识。还有一种模式是让用户为结果付费，但结果的价值高低也是主观性的判断。另外，如果未来实现了多Agent协同，通用型与垂直型Agent之间的结算方式，依然是商业层面的挑战。

目前Agent领域还有很多变量，业界没有形成完全的共识。AI最初兴起的时候大家认为它改变了生产力，现在看来也改变了很多生产关系，人和Agent之间如何协作管理，是很有意思的议题。

颜黔杭：在Agent领域，你关注哪些创新机会？未来一、两年内的投资更看好什么样的Agent？

刘鹏琦：从投资人的角度，我们可能会更看重垂直领域的Agent机会，因为垂类Agent具备行业和细分领域的先验知识，和用户的关系相对更近，也不需要完全拘泥于Agent的形态。

现在的局面是，大多数应用还是基于Prompt，一部分已经做成了Workflow（工作流），只有少数开始尝试Agent。在应用寻找PMF的过程中，Workflow已经发挥了很大的作用。随着模型能力的提升， Workflow 会慢慢进化成 Agentic Workflow （智能体工作流），最终走向完全由Agent托管的形态，这样的发展路径是值得期待的。

现在整个行业的竞争非常激烈，大家都在争做“全球第一XXX”，而且可能离一个创业者就把公司做成独角兽的状态也不远了。在创业者选方向的时候，我们会建议基于原有经验和积累，尽可能延长产品服务的链条，覆盖工具、服务和交付结果。

颜黔杭：我补充一些对ToC方向应用的看法。大家往往会误解ToC产品一定要做通用，但有很多小众化的需求，其实也有比较大的市场。所以，我们也会关注在C端环境下，深挖 AI产品在垂直场景下的价值。

当前ToC领域的AI探索，比如基于大模型的文字生成、对话交互等短链条、文字生成交互场景的产品，已经被月之暗面、OpenAI等玩家占据市场。真正的机会可能藏在 C端的长链条任务规划和工具类内容生成中，比如像Deep Research这样交付输出长链条结果，或者结合AI做硬件产品。

为什么说通用且垂直的ToC产品有价值？

我们可以从过去十年智能硬件的发展中找到答案。早期智能硬件的诞生与蓬勃发展大多是在垂直场景中，因为C端本身体量较大，垂直场景的产品做大后，有很多机会把原有的小蛋糕做成大蛋糕，甚至创造新品类。我们很期待能出现将 AI与C端需求结合的新产品。

我们期待AI应用和AI Agent将迎来爆发的机会，也非常看好ToC和ToB方向各类垂直领域的AI应用将进一步发展。

即使今天我们聊了这么多观点，但可能半年后很多观点就会被推翻。我们期待与创业者进一步交流。在一个技术与认知不断迭代的时代，保持开放的心态、持续的学习与同行间的深入交流，是我们应对不确定性的关键。

来源：36kr

本主题由版主或管理员于 2025-7-11 19:53 审核通过

0 举报本楼

本帖有 1 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2025-7-13 12:12 , Processed in 0.321164 second(s), 17 queries , Gzip On.

Discuz Licensed

回顶部

		自动登录	找回密码
密码			注册