Manus的发布是Agent大战的一次抢跑 [复制链接]

tayun

军衔等级：

中校

电梯直达

1^# 大中小

发表于 2025-3-11 17:40:15 |只看该作者 |倒序浏览

文 | 窄播，作者 | 李威

这是窄播Weekly的第48期，本周我们关注的商业动态是：Manus发布的节点性意义。我们认为，Manus的发布不是又一个DeepSeek时刻，而是对即将到来的AI Agent之争的一次抢跑——虽然一时成为全场焦点，却还没展现出成为冠军的实力。

3月6日凌晨，Manus头顶「全球首款通用型AI Agent产品」的称号登上舞台。在前排观众的高度赞誉和诸多官方案例效果的双重加持下，Manus迅速成为营销号和媒体的宠儿。随后，由于邀请码一码难求，用户测试中出现了卡顿、迟缓、未完成任务，使其口碑迅速两极化，陷入「套壳」质疑中。

与此同时，国内的MetaGPT和开源社区CAMEL-AI两个团队在很短时间里推出了开源的Manus复刻项目。MetaGPT的Open Manus在GitHub上收获了7000多颗星星，CAMEL-AI打造的OWL在智能体测试基准GAIA开源榜单上的得分为57.7%。借势Manus，两个团队各自收获了一次破圈效果。

抛开流量层面的造势、营销、蹭热点等行为不谈，也不在没有邀请码的条件下围绕评判Manus的实际效果，仅从产品思路及影响来看，Manus的这次抢跑会激化AI Agent的竞争，并且让「GPTs类」智能体开始退出历史舞台。

一方面，AI Agent在2024年就已经被公认会成为2025年AI竞争的重头戏。知名投行巴克莱在最新的研报中，将「推理模型」和「Agent」推为新时代的弄潮儿。Manus作为投入这波趋势中的一条鲶鱼，大概率会刺激巨头加速布局AI Agent。

进入2025年，OpenAI已经先后抛出了Operator和Deep Research两个 AI Agent。就在Manus走红的这一周，微软也发布了两个新的AI Agent。Meta也在为Facebook和Instagram推出客服领域的AI Agent。亚马逊的 AWS 被曝组建了一个致力于Agent开发的新团队，旨在帮助人们自动化生活中的部分事务。

另一方面，人们对AI Agent的定位越来越清晰，无论是开发者还是用户，都更加强调AI Agent的任务执行能力，而不是定制化的聊天能力。这也意味着，包括始作俑者OpenAI在内，都会逐渐放弃GPTs类智能体，去探索如何提升AI Agent的执行效率。Manus会让文小言和豆包中的「周易大师」们更快谢幕。

新的AI Agent竞争阶段会呈现出四个趋势：

1、从与AI合作，到监督Agent工作；

2、好的Agent一定是合格的终端消费品；

3、编程平权会带来更灵活的执行；

4、围绕Agent开始建设「统一市场」。

从与AI合作，到监督Agent工作

在2023年，人们还会将GPTs那样的，被高级Prompt搭建起来的，具备专业背景的聊天机器人称作智能体。人人都可以开发的智能体，其实是人人为不同场景定制化不同的聊天机器人，是人与AI合作完成对话任务。当时的OpenAI和百度都希望这些智能体可以成为增加ChatGPT和文心一言使用市场的工具。

事实是，低频的聊天需求聚合，根本带不来用户时长的增长。甚至，用户选择智能体也不是因为它多么有趣，而是希望它能提升自己的效率。当大模型变得足够聪明时，人们召唤算命大师可能只需要一句话，没有人会再去从众多智能体中挑选出最顺眼的算命大师。

GPTs们是在基于技术现状思考产品形态，而Manus是在打造一个载体去承载技术的未来——这也是Manus团队给到的一个避坑指南。

开发AI产品不同于开发互联网产品，后者面对的技术与平台相对稳定，搭建起更好的产品体验，类似有了智能手机，在上面去开发微信，前者强调对技术的预见性，据此来开发产品，是要设计能够让汽油更充分燃烧的发动机。

Manus之所以能够给到很多人震撼的感觉，是因为Manus展现出了人发出命令，不要对话引导，只用监督Agent执行的未来雏形，比Auto-GPT展现的自我思考、自我规划能力要更能发挥未来AI的能力。

而且，Manus也不需要像AI Agent程序员Devin一样，针对不同场景进行针对性设定，而是说一句话就能启动不同领域的任务，让人们使用AI的效率得到了提升。

当然，这样做的风险就在于，面向未来技术能力的载体，往往会在当下露怯。Devin发布后，也遭受过质疑，因为技术需要进一步迭代。而本就是要抢跑Agent比赛的Manus，既没有做好全面开放给用户使用的准备，也缺少让通用AI Agent完美无缺的技术支持。

半黑半红是他们自己早就做出了选择的结果。

好的Agent一定是合格的消费品

Manus的成功之处在于，从C端用户的需求出发，搭建起了一种高度灵活且低门槛的Agent服务模式。

在B端市场，客户只会为好的消费品买单。而且，B端客户对Agent的可靠性有更高的要求。也因此，AI Agent在B端的探索往往都是从某个垂直业务场景的优化切入，所以会有Salesforce旗下Agentforce这样的平台，为企业提供按需搭建AI Agent的服务。

在C端市场，好的消费品不只要好用，还要简单。首先，绝大部分用户甚至对自己的需求都没有一个清晰的认知，脑子里只有一个模糊想法的时候，就会去寻求AI的帮助。其次，用户即便有清晰的需求清单，知道如何分步完成，也很大概率不精通实现任务的工具。

这就导致，像字节扣子、腾讯元器这样需要用户自己搭建工作流的平台，更像是一个服务开发者的平台，而不是解决C端用户需求的平台。豆包+扣子、元器+元宝的组合也一直没能打出这套「需求对话+Agent执行」的组合拳。在OpenAI、Google、Meta的Agent尝试中，我们也还没有看到统一需求入口+多Agent能力的低门槛产品组合。

复旦大学的技术团队推出过一个名为AI2Apps的一站式AI员工开发与端侧服务平台。这个平台有一套基于浏览器的Agent操作系统，提供全套开发工具，能像Devin一样编写代码，是一种高阶版的扣子。开发者能在「建筑师Agent」的主导下完成某个岗位AI员工构建与组合。但这依然没有解决C端用户的简单使用痛点。

但在Manus，用户说出一个需求，就会有Agent先进行分析拆解，然后分配不同的Agent去执行不同的工作，调用不同API完成任务，还会有Agent负责反思和挑错。而且整个过程清晰可见，用户可以介入调整。

这是一个合格的消费品应该具备的素养，把所有用户看做小白，让他们在不懂如何编写网页，如何调用API的情况下，也能高效完成任务。

但是，Manus欠缺的是，执行具体任务的准确度与精细度。这是一个打磨不同能力Agent的过程。

OpenAI也有类似Manus的想法。Deep Research的团队成员Josh Tobin就认为，虽然这些Agent现在是独立的，但人们日后能够使用的终极Agent，不会仅局限于网页搜索、操作电脑或执行人类助手的常规任务，而是能够以更自然的方式融合所有这些功能。

但Open AI选择的是先通过定制化模型，训练出比大语言模型更适合执行具体任务的Agent。其中，Operator是一个偏重执行与操作的Agent，Deep Research更偏重信息的收集、整理、归纳。未来可能还会有其它的Agent出现，但他们最终可能会成为ChatGPT手下的员工。

编程平权会带来更灵活的执行

如果说大模型带来的是在交互灵活性上的提升，那么AI推动的编程平权，会给Agent执行任务带来更灵活的手段。

Deep Research的团队成员Josh Tobin表示，一些公司构建Agent时，会选择由人来搭建整个工作流，而工作流中的重要节点，会由大语言模型掌控，由其来决定下一步的行动。但这种方式构建出来的Agent会比较死板，难以灵活应付可能出现的所有场景。应该是，利用先进的推理模型，赋予它人类工作生活中使用的工具，直接针对期望Agent达成的结果进行优化。

所以Manus会强调「Less structure, more intelligence」，减少对AI的结构化限制，选择了依赖大模型能力来组建工作流。在大模型的指挥下，Agent会在自己的虚拟电脑上使用浏览器、编程工具等完成任务。这样的好处是随着大模型能力的增强，对任务的理解和拆分就会越准确。

在大模型做总指挥的基础上，对编程能力的调用，会带来解决复杂问题的更好方案。在Manus的演示案例中，可以看到根据搜集到的信息创作仪表盘的操作是通过编程解决的，有用户生成PPT也会先依靠编程能力写出H5页面，再把页面转存成图片。编程平权带来了执行任务的更高可控性。

在本周，前谷歌 DeepMind 研究人员Misha Laskin和Ioannis Antonoglou创立的Reflection AI获得1.3 亿美元融资，要开发超级智能。他们的第一步就是构建一个自主编程工具，用于扫描代码漏洞和优化应用程序内存使用等场景。具备自主编程能力的Agent是他们构建AI工作团队的重要技术基座。

Agent需要「统一市场」建设

Manus的一个局限是，可以选择使用API调用不同的信息源和能力，但是API无法帮助Agent克服移动互联网的孤岛效应。在一些测试中，Manus能够绕过一部分平台的人机验证机制，但也会在调用其他平台的API时报错，在一些平台上收集信息时也需要人类接管进行登陆。

Agent需要一次「统一市场」的建设。

简单来看，用户在登录了Manus之后，如果想要发挥更好的效用，需要有一个连接范围极广的基于一个账号的联合登陆机制。在国外来看，能够做到这一点的是Google，即便是Meta也还差点儿意思；在国内来看，微信的连接范围广，但也不如Google账号。

即便是在互联互通的口号下，国内的互联网产品想要实现联合登陆机制，也是一个很困难的任务。所以就出现了GUI（图形用户接口）Agent，希望通过让AI读取屏幕信息，在更底层绕过App之间的墙。AutoGLM、computer use等能力的推出，都是在这个方向上做的准备。

与之相比，Manus的AI+虚拟机方案虽然更安全、更易实现，但局限多，不够底层。

一个更长远的目标是，基于GUI Agent形成一套以Agent为核心搭建的操作系统。就像Meta的首席AI专家杨立昆（Yann Lecun）所言，短期内需要让AI系统能够执行一系列行动，长期来看则需要下一代AI系统的支持。

这个操作系统，本质上就是一个融合软硬件能力，能协作不同模型的「大脑」。

来源：网易

本主题由版主或管理员于 2025-3-11 17:56 审核通过

0 举报本楼

本帖有 1 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2025-5-2 22:51 , Processed in 0.196729 second(s), 16 queries , Gzip On.

Discuz Licensed

回顶部

		自动登录	找回密码
密码			注册