通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  中校

注册:2007-10-2913
跳转到指定楼层
1#
发表于 2025-7-11 19:20:15 |只看该作者 |倒序浏览

2025年上半年, AI Agent(AI智能体) 迅猛发展,点燃了 “万物皆可Agent” 的热潮。

这股热潮首先体现在技术底层—— 模型领域的激烈“军备竞赛” 上。年初DeepSeek打破了推理模型赛道OpenAI一家独大的局面,震撼业界。随后OpenAI、Anthropic、Google等 头部厂商轮番上阵 ,相继推出o3 Pro、Claude 4系列和Gemini 2.5 Pro等重磅模型。

模型能力的跃升,直接推动了 应用层面的爆发 。随着OpenAI发布Operator(上网执行任务)与Deep Research(深度研究)这两款产品,AI Agent赛道的竞争骤然加剧,新产品不断涌现。

大厂们纷纷押注Agent赛道 :Google预计今年发布能够操作浏览器和其他软件的Project Mariner,百度推出定位于通用超级智能体的“心响”APP,阿里的“心流”项目则深入探索Agent的人机协同效率。然而, PMF(产品市场匹配度)、商业化落地路径和产品核心壁垒 等问题 仍等关键问题 ,仍有待行业进一步探索。

AI Agent是继提示词(prompt)、工作流(workflow)之后, AI应用发展的第三阶段 。AI Agent的核心价值在于其 感知环境、自主决策及工具使用(Tool Use)能力 。我们认为,要实现真正的突破和解决前述挑战, 强化学习驱动的持续迭代 将是Agent发展的关键路径。

上周日,围绕2025年上半年AI Agent的创业热潮、技术突破和发展趋势, 峰瑞资本执行董事刘鹏琦 和 峰瑞资本副总裁颜黔杭 在一场直播中进行了深入探讨。他们讨论的问题包括但不限于:

如何理解 AI Agent这个概念 ?在这一赛道上,行业有哪些 共识和分歧 ?

AI应用究竟发生了 哪些技术突破 ?为何业界普遍看好强化学习驱动的Agent?

“AI圣 经”《苦涩的教训》(The Bitter Lesson)中有哪些核心观点?这些观点对AI Agent的发展又有哪些启示?

Agent该如何 实现落地 ?在这个过程中,有哪些 创新机会 ?未来的 长期壁垒 又会是什么?

我们编辑了直播的部分内容,希望能带来新的思考角度。

/ 01 /这半年,AI领域有哪些超预期事件?

颜黔杭:从年初DeepSeek爆火到如今Agent应用涌现,这半年 AI领域 有哪些 超预期事件 ?

刘鹏琦:今年上半年,自DeepSeek发布后,整个AI赛道明显加速, 模型侧与应用侧 均迎来关键变化。

一,在模型侧,以DeepSeek为代表的 推理模型 迅速打开市场,推动各大厂商加速入局,行业开启 “军备竞赛” 状态。DeepSeek更深远的意义在于, 基于强化学习的推理模型 由此进入公众视野,正式开辟了大模型新赛道。

除了产品层面的突破, 模型迭代速度 也远超预期:OpenAI推出o3 Pro、Anthropic发布Claude 4系列、Google发布Gemini 2.5 Pro。头部厂商轮番“打榜”,彻底打破了此前关于“模型迭代放缓”的预测。与此同时,部分公司正在重整旗鼓,比如Meta近期宣布投资数据标签初创公司Scale AI 150亿美元,并重组AI部门。

值得关注的是,DeepSeek证明了 国内外大模型技术并未有显著差距 。大厂也加紧模型层面的布局,比如阿里发布通义千问3.0、字节发布豆包1.6版本;中国“AI六小龙”公司(智谱、MiniMax、月之暗面、阶跃星辰、百川智能、零一万物)虽有部分企业稍显滞后,但头部产品迭代速度仍然迅猛。

二,应用侧的标志性事件,是今年年初 OpenAI 相继发布 Operator (执行简单任务的Agent)与 Deep Research (进行深度研究的Agent)这两款产品。2025由此被业界认为是 “AI Agent元年” 。

在AI Agent这波创业热潮中, 中国团队身影频现 :Manus、Genspark等Agent产品引起广泛热议和关注;Minimax、月之暗面等大模型厂商也加入战局,发布自有Agent产品。

三, AI编程赛道 验证了PMF,即 产品与用户需求实现契合 。火爆出圈的工具Cursor、Windsurf被OpenAI收购,Lovable、Replit、Bolt等企业的快速发展,均成为行业热议事件。

基于这些可以看到,在AI领域,整个市场和赛道都处在热潮之中。

颜黔杭:模型推理能力的突破 是上半年的另一大看点。行业关注的焦点正从 “预训练” 的Scaling Law(数据规模效应)转向 “后训练” 的Scaling Law。

预训练是指通过 参数、数据和算力 提升模型基础能力。后训练则是通过 强化学习、人类反馈等技术手段 优化模型性能。此前,Scaling Law效果, 主要指持续投入参数、数据和算力,以获得越来越强大的模型。

转折点出现在 DeepSeek团队推出R1模型 ,在模型后训练阶段大规模应用强化学习技术,即使标注数据极少,也能提升模型推理能力、进而实现推理性能的Scaling Law。

应用方面有一个有意思的现象,OpenAI、Google以及微软等巨头纷纷入局Agent领域,甚至有观点认为,OpenAI本质上可视为“语言模型驱动的AI Agent公司”。

此前,我们认为,AI应用需要与模型厂商保持一定距离,否则在模型边界不明确时,应用可能被快速迭代淹没。但在今年这波Agent浪潮中,部分主做模型的企业,因在用户体验交付上表现出色,反而在应用市场占据一席之地。

当前市场中兴起了 “万物皆可Agent” 的热潮,大厂介入将模型侧推向“全民军备竞赛”,Gemini 2.5提出AIOS概念(大模型智能体操作系统,即将大型语言模型嵌入操作系统OS作为大脑),国内“六小龙”与大厂间的竞争进入白热化;应用侧则以Cursor等企业为代表,在现有场景中推进Agent的推广与验证。

刘鹏琦:这场战争远远没有结束。大模型厂商在做自己的应用和Agent产品,也有很多创业公司在做, 模型和应用的边界 变得越来越模糊,未来谁更有可能长期跑赢也有待观察。

回顾这上半年,可能每天都有新的事情发生,很多结论被快速证伪。当下我们的很多观点也不一定正确,这是一个 保持开放、不断学习 的过程。

/ 02 /AI 应用的三次进化, Agent范式从何而来?

颜黔杭:“AI Agent”的 具体定义 是什么?不同应用之间的 本质区别 又在哪里?

刘鹏琦:自2022年底OpenAI发布ChatGPT,助推AI应用进入新赛道以来,AI应用大致有三种任务处理方式:

第一阶段是 prompt (提示词,即 对话交互 )形式,用户输入Prompt、提出需求,大模型直接输出答案。这是最基础也是普遍的AI应用形态。

第二阶段是 AI Workflow(工作流) 形式,大模型外部接入数据源,通过人工预先定义的节点与路径,多步骤地完成任务需求。

与第一阶段相比,Workflow增加了数据读取与处理环节,但仍依赖 专家预设的固定流程 ,虽然过程可控,但灵活性、通用性不足。当前落地及商业化较好的应用多是基于这一形态,比如Dify(提供低代码开发平台,支持快速构建营销文案、用户画像分析)、Coze(智能客服、语音助手)和LangFlow(低代码、可视化的AI 应用构建工具)。

随着OpenAI发布Operator与Deep Research,AI应用迈入第三阶段—— AI Agent(智能体) ,其广义定义是“能够自主感知环境、自主决策、执行任务并达成目标的智能系统”。这可以逐一拆解关键词来理解:

“感知环境” ,可以让AI更全面理解用户的需求、指令和所处上下文的信息,甚至包括长期记忆;同时,AI还可以进一步改变环境,这就要依靠在“执行任务”过程中 Tool Use(工具使用)能力 上的关键突破。

“自主决策与规划” ,与Workflow依赖专家预设的固定流程不同,Agent能够自主决策任务步骤。尽管Workflow在可控性方面具有优势,但在灵活性、通用性与泛化能力上存在局限;而具备自主决策能力的Agent,虽然目前在任务执行成功率上仍有挑战,却展现出了远超预期的潜力。这些特性的叠加,推动第三阶段的Agent应用形态走向大众视野。

/ 03 /Tool Use和强化学习, 如何赋能Agent?

颜黔杭:结合鹏琦提到,Agent核心特征在于感知环境、自主决策、Tool Use能力,那么相较于以ChatGPT为代表的AI应用,Agent的 核心优势 究竟体现在哪些方面?当前哪些具体赛道更适合 落地应用 ,又存在哪些挑战?

刘鹏琦:今年Agent的核心变化在于, Tool Use能力 取得了突破。

具体来看,从 编程 到 browser-use (Agent模拟用户在浏览器中的操作),再到 computer-use (Agent操控计算机系统),以及随着 MCP通用接口 (Model Context Protocol,模型上下文协议,即通过制定统一规范、实现 AI 模型与外部资源的无缝对接)普及率的提升,Agent的Tool Use能力得到增强,能够更高效地从外部获取信息。

此前大模型对于世界知识的核心局限在于,训练数据仅包含截止到某日的公开数据,缺乏时效性数据以及私有领域数据注入。具备Tool Use能力后,AI能 自主检索信息 、 与外部世界交互 ,信息获取能力较此前版本实现了数量级上的提升。

如今,Agent已在 开发与编程赛道 上验证了PMF。以Cursor为代表的工具证明,编程领域的部分闭环操作完全可以交由Agent完成。更关键的是,今年大模型借助强化学习的技术突破,显著提升了推理能力,进一步增强了Agent的实用性。

颜黔杭:我来补充一下为什么Agent能够率先在AI编程赛道上跑通。编程本质上是 “文字+语言数据” 的结合,其训练数据高度结构化,因此ChatGPT刚问世时便展现出较强的代码生成能力,不过早期的代码常常出现幻觉问题,无法直接对接到编译器运行验证。

通过整合过去二三十年来成熟的软件开发工具链,AI编程可以在代码编写、调试到编译输出等环节中形成 完整的闭环系统 ,在虚拟计算机的环境下独立运行,从而为Agent的高效迭代和实验验证提供有力支持。

相比之下, 具身智能场景 的落地难度更高。其核心难点在于,机器人需要 与物理世界直接交互 ,从代码指令到实际执行之间存在显著鸿沟,仅靠模型层面的迭代难以让Agent在具身智能领域快速突破。

Tool Use助力了Agent,那么,强化学习又会让Agent获得怎样的发展?

刘鹏琦:这一轮Agent的落地起点确实是Tool Use能力的提升,但未来仍要依赖强化学习从而进一步发展。在我看来, 基于强化学习迭代的Agent ,才是未来 AI应用走向“终极智能” 的路径。

事实上,“Agent”概念最早便 源于强化学习领域 。经典教材《Reinforcement Learning: An Introduction》中对Agent的定义是“在环境中执行动作,并根据环境反馈调整行为,以实现长期目标”,这与当下AI应用讨论的Agent概念高度契合。

“强化学习”最早 起源于计算机科学 ,后与认知科学、心理学、神经科学等学科相互促进,不仅代表了计算机科学领域迭代、演进的路径,更是 普世进化的规律 之一。

包括强化学习在内,大模型的演进也分为三个阶段。举个生活化例子,学生上学读书、听课类似大模型的“自监督模仿学习”(基于大量公开无标注数据的预训练阶段);老师讲解例题是“监督微调”(基于特定标注数据的监督训练);通过写作业、考试获得反馈并真正掌握知识,则是典型的“强化学习”(使用奖励模型来指导训练基础模型)。这一规律同样适用于 生物进化 ,比如每个物种的基因组合就是不同环境的Agent,同样需要通过适者生存的进化过程变得更强。

编程领域之所以能快速验证Agent价值,在于其具备 清晰的数据反馈闭环环境 ,代码正确与否都很好验证,有非常明确的奖励信号,Agent能力得以快速迭代。

未来,若想让Agent超越竞争对手甚至人类智能,必须让它 进入强化学习的闭环 , 自主探索学习方法 ,而非依赖人类指导。

颜黔杭:过去强化学习已在机器人、游戏AI等领域有诸多探索,已经成为推动AI发展的基础方法之一。

OpenAI早期便通过强化学习开发机器人及游戏AI应用。当大语言模型的基础性能足够强大后,我们会发现强化学习对 提升模型的能力上限 起到了关键作用。换言之,强化学习需在 基础模型具备一定能力 后,才能释放其最大价值。

以网球运动来类比,必须先由教练教会基础挥拍动作,能通过练习持续优化迭代;如果基础动作未掌握或存在错误,大量强化训练反而可能固化错误、影响性能、限制上限。因此, 模型的最终能力上限 ,既由 基础模型性能决定 ,也由 强化学习能力 决定。

因此,在强化学习用于发展Agent之前,研发者需要考虑两个问题,其一,Agent是否符合“先具备良好基础性能,再通过强化学习提升上限”的 规律 ?其二,行业何时会进入“强化学习对Agent带来巨幅提升”的 关键阶段 ?

刘鹏琦:从当前观察看,尽管多家厂商发布了自有Agent,但细究技术文档会发现,大家的路径差异显著,可大致分为两种形态:

第一种是 完全端到端(end to end)、基于强化学习训练 的Agent,以OpenAI的Deep Research、Kimi发布的Researcher为代表,Manus就是其中的典型代表,目前看起来更适合广度优先的通用泛化型任务 。“端到端”指模型的上下文理解、工具调用、多步骤思维链等全流程在一个整体框架下完成,目前仅 模型厂商 具备此类能力。

第二种是 模块化拆分 的Agent,即在工程框架下将不同能力拆解给不同模型或Agent来共同完成一个任务。这种模块化的方式目前看起来更适合 广度优先的通用泛化型任务 。在这个框架下,比如决策推理的部分可以使用类似DeepSeek R1的模型,而编程的部分可以使用Claude模型。强化学习主要作用于 各模块单点能力提升 ,最后再通过外部工程连接,以实现更强的整体性能。

颜黔杭:目前,强化学习对单点能力的提升已见成效,但要实现端到端的强化学习仍需突破。这类似模型的“后训练”(Post-training,指通过数据驱动和算法干预,增强大模型在专业技术领域的适应能力),既需要 对大模型后训练的深刻理解 ,也需要 产品化能力 。目前来看,仅有少数模型厂商,以及兼具“模型+产品”的创业团队具备这样的综合能力。

/ 04 /“AI圣 经”如何影响Agent的发展?

颜黔杭:当前Agent领域的一个争议焦点在于 技术路线的选择 ——到底是选择Workflow型Agent还是基于强化学习的Agent?

具体来看, Workflow型Agent 强调 可视化、可解释性和可控性 ,具备较高的透明度和稳定性,因此在短期内更适合作为 商业化落地的技术路径 。而 基于强化学习的Agent 虽然理论上具有 更高的性能上限 ,但因其行为难以预测、可控性较差,仍面临 较大的技术与应用挑战 ,因此被视为一个 更具探索性、面向长期发展 的方向。

机器学习先驱Rich Sutton在2019年的一篇经典文章《苦涩的教训》(The Bitter Lesson)提出,过度依赖 人类先验知识和特征工程 提升模型性能的方法,其效果不如 算力与数据利用率 的提升方法。这一预言精准指向了 大语言模型的发展路线 。以OpenAI为例,它采用的Decode-only架构在算力与数据规模化利用上具有优势,现在已是大语言模型的主流架构。

那么,《苦涩的教训》的核心观点是否也适用于AI Agent领域?

刘鹏琦:强化学习驱动的Agent非常符合《苦涩的教训》的结论 ,强化学习本质上就是不需要教模型太多东西,只给它先验能力,未来怎么迭代、怎么提高要靠Agent自己。

具体来看,想要实现Agent自主学习这一目标需要做好两个方面。

其一, 需要一定的先验能力 。对“小白”水平的Agent而言,搜索路径可能过多,难以找到最优解。因此,Agent需要借助先验能力来提升自己,既包括 模型本身的能力 ,也涵盖 垂直领域积累的knowhow 。

其二, 构建相对好的环境 。业界对于怎么构建环境现在有些争议。目前市面上的通用Agent大多在追求通过 对话聊天框 理解用户需求,交付结果。但语言作为信息的压缩形式,在复杂场景中难以详细描述需求或结果。因此, 多模态信息 也很重要。

比如图形界面的交互,设计绘图有时候需要对图片进行圈选和修改,这类操作无法仅通过语言完成,这就需要 更复杂的交互工具 ,让用户参与到整个流程。用户的反馈信号能进一步帮助Agent去迭代能力。

所以第二点很重要,产品需在模型与用户间构建 丰富的上下文环境与反馈闭环 。比如,Cursor在早期坚持使用IDE(集成开发环境),正是为了借助与用户的深度交互,采集更多反馈信号。

总结一下,想要让Agent有自我迭代的可能性,一方面需要 基于行业和垂直领域knowhow的先验能 力让产品先 实现PMF ,另一方面还要搭建 有充分反馈和上下文的人机交互环境 用以实现 长期的自我学习和迭代 。

/ 05 /Agent将如何落地?有哪些创新机会?

颜黔杭:我们回顾了AI Agent这类应用的发展以及未来预期,回到创业投资上,目前AI agent 落地的 痛点和瓶颈 是什么?有哪些共识和争议?

刘鹏琦:2025年上半年,有很多Agent应用落地,这些应用在使用工具和推理能力上都有了长足的进步,但大家对Agent的评价还是褒贬不一。

Agent仍然面临很多 技术层面的挑战 ,比如能抓取的上下文是否足够长、如何管理记忆机制,以及针对多数主观问题和随机结果如何推理。

在 使用工具层面 ,Agent在浏览器访问搜索等工具的能力已经很强,但想要和 真实物理环境 、 企业内部的复杂软件系统 进行交互,还有很长的路要走。在这几点没有充分发展前,Agent的发展上限仍然比较低。

第二个很难回答的问题是,未来Agent 应用的壁垒 是什么?如果借鉴上一代互联网应用的评价标准之一——规模效应,那对于Agent应用而言,可能其壁垒在于,能不能通过更多用户和使用,提升产品体验和模型能力。目前的Agent产品或许还没到这一步,需要继续观察。

第三个问题是,Agent的 商业模式 会如何演化?现在Agent主要是 订阅模式 ,等到未来有更多垂类Agent出现,订阅模式是否能长期可持续?

一个猜想是,Agent可能会转向另外一种模式,按token使用量付费,这也是目前ToB服务的主要模式。但这种模式对于C端可能存在局限性,因为用户很少有按成本付费的习惯和意识。还有一种模式是让用户为结果付费,但结果的价值高低也是主观性的判断。另外,如果未来实现了多Agent协同,通用型与垂直型Agent之间的结算方式,依然是商业层面的挑战。

目前Agent领域还有很多变量,业界没有形成完全的共识。AI最初兴起的时候大家认为它改变了 生产力 ,现在看来也改变了很多 生产关系 ,人和Agent之间如何 协作管理 ,是很有意思的议题。

颜黔杭:在Agent领域,你关注哪些创新机会?未来一、两年内的投资更看好什么样的Agent?

刘鹏琦:从投资人的角度,我们可能会更看重 垂直领域的Agent机会 ,因为垂类Agent具备行业和细分领域的先验知识,和用户的关系相对更近,也不需要完全拘泥于Agent的形态。

现在的局面是,大多数应用还是基于Prompt,一部分已经做成了Workflow(工作流),只有少数开始尝试Agent。在应用寻找PMF的过程中,Workflow已经发挥了很大的作用。随着 模型能力的提升 , Workflow 会慢慢进化成 Agentic Workflow (智能体工作流),最终走向 完全由Agent托管 的形态,这样的发展路径是值得期待的。

现在整个行业的竞争非常激烈,大家都在争做“全球第一XXX”,而且可能离一个创业者就把公司做成独角兽的状态也不远了。在创业者选方向的时候,我们会建议基于原有经验和积累,尽可能 延长产品服务的链条 ,覆盖工具、服务和交付结果。

颜黔杭:我补充一些对ToC方向应用的看法。大家往往会误解ToC产品一定要 做通用 ,但有很多 小众化的需求 ,其实也有比较大的市场。所以,我们也会关注在C端环境下,深挖 AI产品在垂直场景下的价值 。

当前ToC领域的AI探索,比如基于大模型的文字生成、对话交互等短链条、文字生成交互场景的产品,已经被月之暗面、OpenAI等玩家占据市场。真正的机会可能藏在 C端的长链条任务规划和工具类内容生成 中,比如像Deep Research这样交付输出长链条结果,或者结合AI做硬件产品。

为什么说通用且垂直的ToC产品有价值?

我们可以从过去十年 智能硬件 的发展中找到答案。早期智能硬件的诞生与蓬勃发展大多是在垂直场景中,因为C端本身体量较大,垂直场景的产品做大后,有很多机会把原有的小蛋糕做成大蛋糕,甚至创造新品类。我们很期待能出现 将 AI与C端需求结合 的新产品 。

我们期待AI应用和AI Agent将迎来爆发的机会,也非常看好ToC和ToB方向各类垂直领域的AI应用将进一步发展。

即使今天我们聊了这么多观点,但可能半年后很多观点就会被推翻。我们期待与创业者进一步交流。在一个技术与认知不断迭代的时代,保持开放的心态、持续的学习与同行间的深入交流,是我们应对不确定性的关键。


来源:36kr

举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-7-13 12:12 , Processed in 0.321164 second(s), 17 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部