通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  上校

注册:2010-4-2820
跳转到指定楼层
1#
发表于 2025-12-27 10:39:57 |只看该作者 |倒序浏览







当算力比数据更贵、商业场景率先闭环、Scaling Law在机器人领域被验证,具身智能的ChatGPT时刻就会到来。

2025年12月3日,「甲光年」在北京万达文华酒店圆满举办“轰然成势,万象归”2025甲子引力年终盛典。

在具智能技术专场圆桌对话中,伯牙智能创始兼CEO刘欣作为主持人,对话原力无限资深研究科学家陈佳玉、极佳科技联合创始兼首席科学家朱政、千寻智能联席席科学家解浚源、星源智联合创始何嘉伟,围绕具智能模型展开深入探讨。

在当下具智能临数据稀缺、模型不成熟、商业化场景待开发的三重挑战下,ChatGPT时刻的定义、技术路线的选择、数据轮的建设成为行业关键议题。从VLA与世界模型的技术分歧,到软硬解耦与脑多型的实践争议,从商业服务、工业、家庭三大场景的落地优先级,到资本热潮下的冷静思考,嘉宾们实战案例揭示了具智能产业的突破路径。

对于未来的产业格局,嘉宾们普遍认为,无论是技术路线选择、场景切入策略还是团队建设模式,唯有具备长期技术积累、明确方向聚焦、构建完整数据闭环,才能真正迎来具智能的ChatGPT时刻。

以下为本场圆桌的文字实录,经「甲子光年」编辑,在不改变原意的基础上略有删改。

1.ChatGPT时刻的定义:

技术突破还是应用爆发?

刘欣(主持人):大家下午好,非常荣幸能够作为这一场圆桌的主持。先有请各位嘉宾简单的介绍一下自己所在的公司,以及自己所负责的业务。




伯牙智能创始兼CEO 刘欣

陈佳玉:我是在原力无限机器人担任资深研究科学家的陈佳玉,同时是香港大学数据系统工程系的助理教授。我所负责的内容是robotbrain的开发,具体路线就是VLA和世界模型。




原力无限资深研究科学家 陈佳玉

朱政:我们公司主要从事的是具身大脑以及世界模型的研发。最近推出的两款产品,一款是GigaBrain,是具身VLA的大模型。一款是GigaWorld,是世界模型的平台。我在公司主要负责基础模型的开发,以及前瞻预研。




极佳科技联合创始人兼席科学家 朱政

解浚源:我是来自千寻智能的解浚源,在公司负责AI部门,我们是全栈自研的具身智能公司,做自研的轮式底盘的人形本体,还做VLA基础模型。




千寻智能联席席科学家、具身智能部负责人 解浚源

何嘉伟:我是星源智机器人联合创始人何嘉伟,负责灵巧操作大模型及大小脑联合落地板块。星源智聚焦具身大脑赛道,打造跨本体高泛化通用大脑,以全栈式具身技术 + 端侧算力平台实现软硬一体交付,赋能千行百业智能化升级。




星源智联合创始、灵巧操作大模型负责人 何嘉伟

刘欣(主持人):今天的主题关键字叫ChatGPT时刻,对于语言模型来说,本身是技术突破、用户体验的跃迁,还有商业模式的验证三重共振,对于各位嘉宾看来,具身智能的ChatGPT时刻,它应该具备哪些特征?到底是一些技术上的突破,还是某一个killerApp的到来?

佳玉ChatGPT刚出来时服务器宕机、限制使次数,说明具智能的ChatGPT时刻先要在真实世界中得到验证且效果很好,达到供不应求的状态。由于具智能挑战更,发展会分三个阶段:

1.单场景、单任务的稳定执(如双臂机器叠服)

2.单场景、多任务的稳定执(可能是ChatGPT时刻)

3.多场景、多任务的稳定执

朱政:具智能与数字世界的语模型打法不同,因为它要频繁与物理世界交互。具智能在谈论三件事:

1.智能化平(大脑、小脑)

2.场景(ToB的工厂、物流,ToC的家庭)

3.本体(物理载体)

距离ChatGPT时刻,最瓶颈还是智能化平。虽然通性已经很好,但与专有模型相还有很差距。

解浚源ChatGPT时刻需要破圈效果,让外行人在头15-30分钟觉得“这东西真的快要有点用了"。比如机器在开放场景较泛化地完成初级体力劳动,不是摆拍是真实随机场景,速度不要比人慢太多。

何嘉伟ChatGPT最让人意外的是智能涌现和zero-shot能力。具身智能需解决用户提出的未训练/相近任务的零样本问题,才能达到ChatGPT时刻。

2.世界模型与VLA:技术路线之争

刘欣(主持人)下一个问题给到朱总,极佳科技全力押注世界模型,背后的理论是物理AI,世界模型是它的终极形态,现在有很多团队,或者说从资本市场特别火,大家其实都在用VLA,直接端到端的训练,请您阐述一下,世界模型比VLA本质的优势到底在哪里?是不是真的能够解决数据瓶颈和泛化难题?

朱政世界模型分三个阶段。

第阶段是为VLA提供训练数据。VLA语作为媒介统不同任务,解决了通性问题,但还没解决泛化性问题(对颜、纹理、光照、视、桌度等的泛化)。泛化性主要靠数据解决,但真机数据很难涵盖物理世界的各种变化。世界模型可以极降低真机数据采集成本、解决泛化性问题;

第阶段是持强化学习后训练。有监督学习只能达到类标注的平均平,只有强化学习才能让单任务成功率达到99%以上。传统的强化学习法有两种:

在模拟器做(但模拟器不够真实)

真机+人类在环强化学习(需要配、很危险)

世界模型可以提供更接近真实世界的模拟环境,来训练强化学习。

第三阶段是VLA吸收世界模型理念,演进为WA模型(World-ActionModel同时预测未来状态(视频、3D重建)和未来动作,这应该是VLA智能化模型的终极路线。

3.软硬解耦:脑多型的可能与挑战

刘欣(主持人):另外一个话题是现在关于大脑,可以看到有两派,一派想做“一脑多型”,一个大脑解决跨本体的问题,还有一种观点是只有软件硬件充分融合,才能发挥出硬件的最佳性能。原力无限也提出了“一脑多型”的战略,想问陈总,你们在这方面是怎么考虑的?是不是会有硬件软件解耦带来的负面影响?

佳玉需要澄清,软硬解耦并不是完全解耦:

首先,在运控算法层,必须针对特定硬件做特定开发;

其次,在脑层级,理解世界、形成泛化知识、场景规划,不应该受本体限制;

关于部署性能也要分开看:是直接把通脑部署到新场景,还是把通脑作为预训练模型,在特定场景做持续更新和适配。

因此,在大脑层级不区分本体,在运控层级做本体适配,这是较好的范式。

刘欣(主持人):请星源智何总补充一下,咱们也是做通用的具身大脑,我们怎么去应答有一些人其实对泛化能力是持一个怀疑态度的?我们在做跨越本体的时候,本身对于硬件的一些选择会有哪方面注意的点呢?

何嘉伟星源智采用大小脑分层模式:

大脑层负责空间感知、上层任务规划调度、对下层小脑监控与纠错等,与本体相对关,可以通过规模视频、图像、本训练获得泛化能;

小脑层则与硬件相关:

大脑侧的难点是对3D空间的理解针对不同传感器形态、内外参、激光雷达扫描模式等传统3D感知模型难以全面适配。我们的大脑模型结合本体感知、2D3D融合、世界模型等方式实现了跨本体3D空间的理解的泛化。

小脑侧,我们在探索规模跨本体数据集实验发现当任务、采集式、机械臂和末端形态够丰富时,VLA模型也能实现定的跨本体泛化能。

4.数据飞轮:从稀缺到规模化

刘欣(主持人)今天数据是大家的高度共识,这个阶段它非常重要,从需求量来说,它的供应严重不足,采集成本很高。前一场有嘉宾说如果给我100亿我会构建最大的数据飞轮,谢博士也曾经讲过一句话,说仿真数据是伪数据驱动,本身是研发人力驱动。我想请问一下解总,千寻找如何解决真实数据的获取难题呢?

解浚源前数据规模主要是因为以前没有好好做过。涉及物理世界、制造业、组织规模员,有各种细节。但当你把细节打磨好、规模化后,成本可以急剧下降——就像搓跑要百万,但规模化产百万辆后每辆只需万。

数据采集也样,数采设备、团队组织形式打磨好后成本会幅下降。我们认为到明年年底,头部家会有万到百万时量级的数据,届时算会数据贵。

刘欣(主持人)正好引入下一个想讨论的话题,今天很多涌到具身赛道的都有汽车的背景,或者是自动驾驶的一些研发的经验,我想请各位嘉宾来讲一讲,尤其是朱总,之前自动驾驶的哪些技术和方法今天是能够复用的?又有哪些可能存在的陷阱呢?

朱政动驾驶与具机器有两点类似首先是数据层,都需要海量数据;

其次是模型层,都在向VLA收敛,加语后可以做到通。未来都可能演进到WA模型(预测未来动作+未来状态)。学术界已有作把动驾驶导航、L4物流小车导航、机器移动统为Foundationmodel,统数据集训练。

但是也有不同,不同点在于对物理规律的要求:

自动驾驶主要是交通流模型,很少发接触,物理规律由交通流和博弈模型建;

具智能对刚体、流体、柔体的物理规律要求更,因为要频繁与被接触物体交互

虽然操作任务还没统进来,但未来随着Foundationmodel出现,动驾驶与具智能在模型层会越来越收敛。

5.商业化落地:场景选择的优先级

刘欣(主持人)我们下来谈一谈应用场景,像原力无限选择的是充电机器人做切入,千寻瞄准的是工业、商业等灵巧操作,星源智做的是通用场景。请各位来分享一下,你们觉得具身智能最快实现商业闭环的场景是哪些?我们第一个看到的这种10亿级美金的应用可能会是什么样的场景?你们的公司又为什么选择了今天的这个细分的切入点呢?

陈佳玉如果我们考虑三个场景,工业、家庭和商业,我认为最先会有新的商业闭环的应该是商业服务场景。

我们可以先做一下排除法,业场景对效率要求常,替代动化设备的效率槛很硬;家庭场景涉及安全性和成本问题,挑战很;商业服务场景对安全性和效率的要求都不太。

一个比较具体的例子就是美国的Robotics,他们做的是双臂机器人去叠纸巾,由于他们这个可以长时间的运行,并且效率非常高,很多人愿意为他们买单,比如说美国很多饭店或者是洗衣房都会买他们的机器人,这就是很好的一个商业服务的范式。

另外,商业服务场景还有酒店用的清洁型的机器人,它虽然说也是类似家庭场景,但是它干活时没有人,就不涉及到安全性的问题。而且由于酒店大部分房间也都是制式的、半结构化的,也有利于数据的规模化采集。

刘欣(主持人)解总,千寻这边是怎么思考这个问题的?

解浚源:其实我比较同意他的观点,家庭的话我觉得肯定是最后的,就是它有安全、隐私、场景过于灵活多变等各种各样的问题。工业和商业,工业以现在的技术条件是有可行性的一个场景,但是它确实也面临着效率、场景碎片化、数据采集难度大等问题。所以现在能实现一些小批量的落地,去验证一下整个落地的流程和链路,但是比较难起量。

商业应该是在中期能真正起量、实现大批量落地的场景,包括刚才陈总提到的酒店的清洁场景。这些场景主要的好处就是效率不是最关键的,安全性也能保障。

刘欣(主持人)何总这边是怎么考虑的?

何嘉伟我们希望能够把“大脑”部署到不同的场景里面去,我们当时发现物流业有痛点——搬运和物流较成熟,但装卸环节(把货物从地搬到卡或从卡卸到地)是传统动化叉没解决的场景。所以我们和中力发布了具身装卸技术,9中旬开始做,10底实现了基础Demo的具装卸场景,我们用RoboBrain Pro具脑实现了对这个场景的较好覆盖。

<p我们的逻辑是:根据“脑”能找到有商业潜的场景去部署,通过这些数据迭代脑模型,实现数据轮。

6.资本热潮下的冷思考:


Demo、泡沫与技术沉淀

刘欣(主持人)今年整个具身赛道确实非常火,一方面我们看到非常多酷炫的表演,大家所在的公司也都融到了非常多的钱,想请每个嘉宾都讲一讲,在今天这个热潮中,如何避免为了资本、为了融资去把公司带偏?

佳玉要保持平衡,就选个较细分的赛道或较确定的场景,围绕场景做量研发和深度作——既能提成功率,保证技术真正有,不是跟着潮流。

另个重要点是对技术路线要有批判性态度。VLA和世界模型本质都是copy语模型的路(数据+Transformer+算)。要快速验证这个技术路线,另要批判性地思考替代路线,同时做些尝试作为backup。深度尝试+快速验证两都得有。

朱政我们2022年底融资时讲世界模型故事,当时投资都不懂世界模型,问“为什么要做物理AI不做语模型”。随着这两年的科普,今年年初已有投资要求布局家世界模型公司。很多时候我们做的事情和讲的故事并不与资本市场致。

业务层,我们讲三件事有排序:先智能化,再场景,最后本体。今年下半年很多投资者要求我们尽快开拓场景,但我们认为在智能化平没有明显提升的情况下开拓场景,很难达到ROI平衡、商业化闭环。所以我们前坚持做算法(智能化平提升),准备明年晚些时候再考虑商业场景应。

解浚源今年家主要展Demo,Demo背后展的是类能。如我们叠服场景体现的是:柔性可变形物体程操作、动作流畅柔顺、时事动作(类似的动作甩下甩平,不是慢慢在桌上摊平的准静态)。

但做完个能证明后,没有必要在同层级上横向扩展好多Demo。有些在同样事情做了好多遍,有点低平重复,这是被资本市场带偏的现象,对本质猛烈进化没有帮助。

我们叠服Demo做完后(达到除π以外全世界最先进平),就放着了,没有遍遍重新做。我们现在最主要做的是验证ScalingLaw——深度学习发展反复证明,不能Scaling的法没有前途。VLA是机器领域第次验证了ScalingLaw可性的路线,所以我们现在最重要的事是在技术基础上迅速Scaling,到年底要做到现在多两个数量级的Scaling。

何嘉伟对我们星源智来说,Show Demo和做产品不冲突。我们产品定义是带有具脑域控制器的整套解决案。具脑能不断Show新能,这种具身大脑进化能赋能下游落地。

同时我们发现具脑域控制器的概念还是偏早期,现在很多公司还主机+wifi与机器通信,或上代JetsonOrin域控制器。在不断迭代脑和域控制器部署态的过程中,实际能带来很多商业化落地项产出,包括具体可执的Demo。

7.团队建设:多学科协同与人才吸引

刘欣(主持人)大家都融到钱了,紧接着该抢人才了,请所有嘉宾分享一下,你们所在的公司,对于人才团队的构建是怎么考虑的,机器人分为“软”和“硬”,现在有很多来自偏科研背景的人进来,我们的人才比例里面,偏学术背景的和偏传统工程背景的比重大概是怎么样的?大家有没有自己这方面的见解?

陈佳玉我们公司大概有三个团队的人,分别做本体、数据和算法,因为我们认为,这是物理AI的三个核心部分。我所带领的是做大脑算法团队,约为10个人,整体偏学术,就是要探索前沿技术,比如基于VLA的知识学习,以及能够捕捉到因果的世界模型。

我们也有商业化团队,探索出了已经商业化的产品,比如智能充电机器人、智能咖啡机器人等。因为数据团队和本体团队偏程,要结合具体商业需求(场景需求+任务需求)来。

吸引才最重要的是三个点:有共同的愿景、有较清晰的路线、有很好的商业化成果。

朱政公司现在大概有100人左右,因为是创业初期,绝大多数是研发人员,可能占到80%左右。

这些人里主要是两块背景:一块是计算机视觉出身的背景;一块是机器人robotics的背景,可能计算机视觉出身的背景会比较偏算法偏软一些,Robotics可能会偏机械、工程本体一些。

但是内部并没有划分算法部门和硬件本体部门,我们是放在同一个研发部门里。其实大家会在一起工作,因为在大模型的背景下,不管robotics背景的人,还是计算机视觉出身背景的人,其实大家的目标是一致的:让世界模型到VLA、到强化学习的整条链路在本体上打通。

同时,语模型、具智能是前才密度最的两个业,这两个领域本对才有天然吸引。

解浚源:背景没有那么重要,各各业都有各种各样的。最重要的是找脚踏实地的、聪明并且愿意脚踏实地做事的,从各个业都能找到。

在公司发展早期,优秀的会吸引优秀的人;在中后期,做出好的东西、好的技术会吸引优秀的。

何嘉伟公司是智能研究院孵化的,所以技术积累是依托于智源研究院的一些研究成果,包括北京大学的研究团队,我们在研究方面还是非常前沿的。

在工程这一侧我们也非常重视,因为整个产品包括域控和大脑,所以工程化主要就是做一些嵌入式开发,以及包括算法的研发,还有一些部署方面的工程化。

对于吸引人才,一是希望能够吸引志同道合的人,二是因为我们的研究相对比较前沿,也希望有相关领域的科学家加入到团队当中来。

刘欣(主持人)我们星源智是智源研究院孵化的具身智能企业,有一定的技术积累是依托于智源研究院及包括北京大学的研究团队,所以我们在技术方面是非常前沿的。

在工程这一侧我们也非常重视,因为整个产品包括域控和大脑,所以工程化主要就是做一些嵌入式开发,以及包括算法的研发,还有一些部署方面的工程化。

对于吸引人才,一是希望能够吸引志同道合的人,二是希望有相关领域的科学家加入到团队当中来。

陈佳玉五年后希望机器能:替代类做擦玻璃、核设施及能源运维等的危险工作,同时也希望机器人能进家庭,解放家务劳动时间,让们更好与家相处。

我们算法团队集中做家居场景,第阶段让机器在有在的动态场景很好完成多任务,形成多场景数据分类后再部署到更多场景。

我们公司扮演的角色,特别是我所在的算法团队,首先集中做的场景就是家居,想让机器人能在有人在的动态场景里,很好的完成多任务,可能第一阶段就是让他去完成一个固定家庭的多任务,形成多场景的数据分类之后,再把它的部署到场景里,大概的路线是这样的。

如果用一个词总结就是方向,具身智能很火,但具身智能的发展路线没有收敛,也不知道什么方向会带我们实现ChatGPT时刻;另外是应用方向,大家也存在争执,大家也不知道到底是应用到工业、商业还是家庭,所以用方向这个词比较贴切。

最后再补充一点,大家现在都认为VLA和世界模型是收敛的路线,但是我们认为VLA和世界模型只是Agent知识库的一部分,如果用学术一点的话讲,应该包含实体、实体间的relation,和持续抽象。持续抽象又包含“dynamics(动态)的实际抽象”和“策略的实际抽象”,世界模型可能只是dynamics的持续抽象,也就是它可能只是我们需要知识库的一部分。

也就是说,我们的具身智能方向还没有确定,技术还没有收敛,还有更多需要做的事情。

朱政常赞同陈总观点。语模型替代了很多重复的脑作,主要是领使。具智能最的处是把类从危险、重复以及苦的体劳动中解放出来,让类有更多时间去休息、娱乐,追求更多的价值,不是限于重复的家庭劳动、危险的体劳动、或不得不花费量时间处理的事务。

这是具智能在未来五年给我们最的希望,与语模型的侧重点不样。当然也有可能是语模型结合具智能,会解决更多的事情。

如果用一个词来总结,我认为是聚焦,因为语言模型能够成功,是因为这些比较大的公司足够聚焦。

解浚源:我的观点可能跟前两位差不多,在当今世界,AI在吟诗作画、写文章、写代码,人在洗碗、叠衣服,我们希望纠正这件事。

何嘉伟:我认为真正具身智能的ChatGPT时刻意味着,对个家庭来说,能够多个家庭成员;对个或商业场景来说:就是多份产。

用一个词总结是闭环,包括从研究到工程,再到部署的整个链路闭环,也包括从软件到硬件、从算法到算力,再到本体的整个闭环。

(封面图及文中配图来源:2025甲子引力年终盛典)


来源:网易

举报本楼

您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-12-27 22:43 , Processed in 0.347014 second(s), 18 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部