五位技术大咖共话：具智能模型何时迎来ChatGPT时刻？｜甲子引力 [复制链接]

ttxx

军衔等级：

上校

电梯直达

1^# 大中小

发表于 2025-12-27 10:39:57 |只看该作者 |倒序浏览

当算力比数据更贵、商业场景率先闭环、Scaling Law在机器人领域被验证，具身智能的ChatGPT时刻就会到来。

2025年12月3日，「甲光年」在北京万达文华酒店圆满举办“轰然成势，万象归”2025甲子引力年终盛典。

在具智能技术专场圆桌对话中，伯牙智能创始兼CEO刘欣作为主持人，对话原力无限资深研究科学家陈佳玉、极佳科技联合创始兼首席科学家朱政、千寻智能联席席科学家解浚源、星源智联合创始何嘉伟，围绕具智能模型展开深入探讨。

在当下具智能临数据稀缺、模型不成熟、商业化场景待开发的三重挑战下，ChatGPT时刻的定义、技术路线的选择、数据轮的建设成为行业关键议题。从VLA与世界模型的技术分歧，到软硬解耦与脑多型的实践争议，从商业服务、工业、家庭三大场景的落地优先级，到资本热潮下的冷静思考，嘉宾们实战案例揭示了具智能产业的突破路径。

对于未来的产业格局，嘉宾们普遍认为，无论是技术路线选择、场景切入策略还是团队建设模式，唯有具备长期技术积累、明确方向聚焦、构建完整数据闭环，才能真正迎来具智能的ChatGPT时刻。

以下为本场圆桌的文字实录，经「甲子光年」编辑，在不改变原意的基础上略有删改。

1.ChatGPT时刻的定义：

技术突破还是应用爆发？

刘欣（主持人）：大家下午好，非常荣幸能够作为这一场圆桌的主持。先有请各位嘉宾简单的介绍一下自己所在的公司，以及自己所负责的业务。

伯牙智能创始兼CEO 刘欣

陈佳玉：我是在原力无限机器人担任资深研究科学家的陈佳玉，同时是香港大学数据系统工程系的助理教授。我所负责的内容是robotbrain的开发，具体路线就是VLA和世界模型。

原力无限资深研究科学家陈佳玉

朱政：我们公司主要从事的是具身大脑以及世界模型的研发。最近推出的两款产品，一款是GigaBrain，是具身VLA的大模型。一款是GigaWorld，是世界模型的平台。我在公司主要负责基础模型的开发，以及前瞻预研。

极佳科技联合创始人兼席科学家朱政

解浚源：我是来自千寻智能的解浚源，在公司负责AI部门，我们是全栈自研的具身智能公司，做自研的轮式底盘的人形本体，还做VLA基础模型。

千寻智能联席席科学家、具身智能部负责人解浚源

何嘉伟：我是星源智机器人联合创始人何嘉伟，负责灵巧操作大模型及大小脑联合落地板块。星源智聚焦具身大脑赛道，打造跨本体高泛化通用大脑，以全栈式具身技术 + 端侧算力平台实现软硬一体交付，赋能千行百业智能化升级。

星源智联合创始、灵巧操作大模型负责人何嘉伟

刘欣（主持人）：今天的主题关键字叫ChatGPT时刻，对于语言模型来说，本身是技术突破、用户体验的跃迁，还有商业模式的验证三重共振，对于各位嘉宾看来，具身智能的ChatGPT时刻，它应该具备哪些特征？到底是一些技术上的突破，还是某一个killerApp的到来？

陈佳玉：ChatGPT刚出来时服务器宕机、限制使次数，说明具智能的ChatGPT时刻先要在真实世界中得到验证且效果很好，达到供不应求的状态。由于具智能挑战更，发展会分三个阶段：

1.单场景、单任务的稳定执（如双臂机器叠服）

2.单场景、多任务的稳定执（可能是ChatGPT时刻）

3.多场景、多任务的稳定执

朱政：具智能与数字世界的语模型打法不同，因为它要频繁与物理世界交互。具智能在谈论三件事：

1.智能化平（大脑、小脑）

2.场景（ToB的工厂、物流，ToC的家庭）

3.本体（物理载体）

距离ChatGPT时刻，最瓶颈还是智能化平。虽然通性已经很好，但与专有模型相还有很差距。

解浚源：ChatGPT时刻需要破圈效果，让外行人在头15-30分钟觉得“这东西真的快要有点用了"。比如机器在开放场景较泛化地完成初级体力劳动，不是摆拍是真实随机场景，速度不要比人慢太多。

何嘉伟：ChatGPT最让人意外的是智能涌现和zero-shot能力。具身智能需解决用户提出的未训练/相近任务的零样本问题，才能达到ChatGPT时刻。

2.世界模型与VLA：技术路线之争

刘欣（主持人）：下一个问题给到朱总，极佳科技全力押注世界模型，背后的理论是物理AI，世界模型是它的终极形态，现在有很多团队，或者说从资本市场特别火，大家其实都在用VLA，直接端到端的训练，请您阐述一下，世界模型比VLA本质的优势到底在哪里？是不是真的能够解决数据瓶颈和泛化难题？

朱政：世界模型分三个阶段。

第阶段是为VLA提供训练数据。VLA语作为媒介统不同任务，解决了通性问题，但还没解决泛化性问题（对颜、纹理、光照、视、桌度等的泛化）。泛化性主要靠数据解决，但真机数据很难涵盖物理世界的各种变化。世界模型可以极降低真机数据采集成本、解决泛化性问题；

第阶段是持强化学习后训练。有监督学习只能达到类标注的平均平，只有强化学习才能让单任务成功率达到99%以上。传统的强化学习法有两种：

在模拟器做（但模拟器不够真实）

真机+人类在环强化学习（需要配、很危险）

世界模型可以提供更接近真实世界的模拟环境，来训练强化学习。

第三阶段是VLA吸收世界模型理念，演进为WA模型（World-ActionModel），同时预测未来状态（视频、3D重建）和未来动作，这应该是VLA智能化模型的终极路线。

3.软硬解耦：脑多型的可能与挑战

刘欣（主持人）：另外一个话题是现在关于大脑，可以看到有两派，一派想做“一脑多型”，一个大脑解决跨本体的问题，还有一种观点是只有软件硬件充分融合，才能发挥出硬件的最佳性能。原力无限也提出了“一脑多型”的战略，想问陈总，你们在这方面是怎么考虑的？是不是会有硬件软件解耦带来的负面影响？

陈佳玉：需要澄清，软硬解耦并不是完全解耦：

首先，在运控算法层，必须针对特定硬件做特定开发；

其次，在脑层级，理解世界、形成泛化知识、场景规划，不应该受本体限制；

关于部署性能也要分开看：是直接把通脑部署到新场景，还是把通脑作为预训练模型，在特定场景做持续更新和适配。

因此，在大脑层级不区分本体，在运控层级做本体适配，这是较好的范式。

刘欣（主持人）：请星源智何总补充一下，咱们也是做通用的具身大脑，我们怎么去应答有一些人其实对泛化能力是持一个怀疑态度的？我们在做跨越本体的时候，本身对于硬件的一些选择会有哪方面注意的点呢？

何嘉伟：星源智采用大小脑分层模式：

大脑层负责空间感知、上层任务规划调度、对下层小脑监控与纠错等，与本体相对关，可以通过规模视频、图像、本训练获得泛化能；

小脑层则与硬件相关：

大脑侧的难点是对3D空间的理解，针对不同传感器形态、内外参、激光雷达扫描模式等传统3D感知模型难以全面适配。我们的大脑模型结合本体感知、2D3D融合、世界模型等方式实现了跨本体3D空间的理解的泛化。

小脑侧，我们在探索规模跨本体数据集，实验发现当任务、采集式、机械臂和末端形态够丰富时，VLA模型也能实现定的跨本体泛化能。

4.数据飞轮：从稀缺到规模化

刘欣（主持人）：今天数据是大家的高度共识，这个阶段它非常重要，从需求量来说，它的供应严重不足，采集成本很高。前一场有嘉宾说如果给我100亿我会构建最大的数据飞轮，谢博士也曾经讲过一句话，说仿真数据是伪数据驱动，本身是研发人力驱动。我想请问一下解总，千寻找如何解决真实数据的获取难题呢？

解浚源：前数据规模主要是因为以前没有好好做过。涉及物理世界、制造业、组织规模员，有各种细节。但当你把细节打磨好、规模化后，成本可以急剧下降——就像搓跑要百万，但规模化产百万辆后每辆只需万。

数据采集也样，数采设备、团队组织形式打磨好后成本会幅下降。我们认为到明年年底，头部家会有万到百万时量级的数据，届时算会数据贵。

刘欣（主持人）：正好引入下一个想讨论的话题，今天很多涌到具身赛道的都有汽车的背景，或者是自动驾驶的一些研发的经验，我想请各位嘉宾来讲一讲，尤其是朱总，之前自动驾驶的哪些技术和方法今天是能够复用的？又有哪些可能存在的陷阱呢？

朱政：动驾驶与具机器有两点类似首先是数据层，都需要海量数据；

其次是模型层，都在向VLA收敛，加语后可以做到通。未来都可能演进到WA模型（预测未来动作+未来状态）。学术界已有作把动驾驶导航、L4物流小车导航、机器移动统为Foundationmodel，统数据集训练。

但是也有不同，不同点在于对物理规律的要求：

自动驾驶主要是交通流模型，很少发接触，物理规律由交通流和博弈模型建；

具智能对刚体、流体、柔体的物理规律要求更，因为要频繁与被接触物体交互

虽然操作任务还没统进来，但未来随着Foundationmodel出现，动驾驶与具智能在模型层会越来越收敛。

5.商业化落地：场景选择的优先级

刘欣（主持人）：我们下来谈一谈应用场景，像原力无限选择的是充电机器人做切入，千寻瞄准的是工业、商业等灵巧操作，星源智做的是通用场景。请各位来分享一下，你们觉得具身智能最快实现商业闭环的场景是哪些？我们第一个看到的这种10亿级美金的应用可能会是什么样的场景？你们的公司又为什么选择了今天的这个细分的切入点呢？

陈佳玉：如果我们考虑三个场景，工业、家庭和商业，我认为最先会有新的商业闭环的应该是商业服务场景。

我们可以先做一下排除法，业场景对效率要求常，替代动化设备的效率槛很硬；家庭场景涉及安全性和成本问题，挑战很；商业服务场景对安全性和效率的要求都不太。

一个比较具体的例子就是美国的Robotics，他们做的是双臂机器人去叠纸巾，由于他们这个可以长时间的运行，并且效率非常高，很多人愿意为他们买单，比如说美国很多饭店或者是洗衣房都会买他们的机器人，这就是很好的一个商业服务的范式。

另外，商业服务场景还有酒店用的清洁型的机器人，它虽然说也是类似家庭场景，但是它干活时没有人，就不涉及到安全性的问题。而且由于酒店大部分房间也都是制式的、半结构化的，也有利于数据的规模化采集。

刘欣（主持人）：解总，千寻这边是怎么思考这个问题的？

解浚源：其实我比较同意他的观点，家庭的话我觉得肯定是最后的，就是它有安全、隐私、场景过于灵活多变等各种各样的问题。工业和商业，工业以现在的技术条件是有可行性的一个场景，但是它确实也面临着效率、场景碎片化、数据采集难度大等问题。所以现在能实现一些小批量的落地，去验证一下整个落地的流程和链路，但是比较难起量。

商业应该是在中期能真正起量、实现大批量落地的场景，包括刚才陈总提到的酒店的清洁场景。这些场景主要的好处就是效率不是最关键的，安全性也能保障。

刘欣（主持人）：何总这边是怎么考虑的？

何嘉伟：我们希望能够把“大脑”部署到不同的场景里面去，我们当时发现物流业有痛点——搬运和物流较成熟,但装卸环节（把货物从地搬到卡或从卡卸到地）是传统动化叉没解决的场景。所以我们和中力发布了具身装卸技术，9中旬开始做，10底实现了基础Demo的具装卸场景，我们用RoboBrain Pro具脑实现了对这个场景的较好覆盖。

<p我们的逻辑是：根据“脑”能找到有商业潜的场景去部署，通过这些数据迭代脑模型，实现数据轮。

6.资本热潮下的冷思考：

Demo、泡沫与技术沉淀

刘欣（主持人）：今年整个具身赛道确实非常火，一方面我们看到非常多酷炫的表演，大家所在的公司也都融到了非常多的钱，想请每个嘉宾都讲一讲，在今天这个热潮中，如何避免为了资本、为了融资去把公司带偏？

陈佳玉：要保持平衡，就选个较细分的赛道或较确定的场景，围绕场景做量研发和深度作——既能提成功率，保证技术真正有，不是跟着潮流。

另个重要点是对技术路线要有批判性态度。VLA和世界模型本质都是copy语模型的路（数据+Transformer+算）。要快速验证这个技术路线，另要批判性地思考替代路线，同时做些尝试作为backup。深度尝试+快速验证两都得有。

朱政：我们2022年底融资时讲世界模型故事，当时投资都不懂世界模型，问“为什么要做物理AI不做语模型”。随着这两年的科普，今年年初已有投资要求布局家世界模型公司。很多时候我们做的事情和讲的故事并不与资本市场致。

业务层，我们讲三件事有排序：先智能化，再场景，最后本体。今年下半年很多投资者要求我们尽快开拓场景，但我们认为在智能化平没有明显提升的情况下开拓场景，很难达到ROI平衡、商业化闭环。所以我们前坚持做算法（智能化平提升），准备明年晚些时候再考虑商业场景应。

解浚源：今年家主要展Demo，Demo背后展的是类能。如我们叠服场景体现的是：柔性可变形物体程操作、动作流畅柔顺、时事动作（类似的动作甩下甩平，不是慢慢在桌上摊平的准静态）。

但做完个能证明后，没有必要在同层级上横向扩展好多Demo。有些在同样事情做了好多遍，有点低平重复，这是被资本市场带偏的现象，对本质猛烈进化没有帮助。

我们叠服Demo做完后（达到除π以外全世界最先进平），就放着了，没有遍遍重新做。我们现在最主要做的是验证ScalingLaw——深度学习发展反复证明，不能Scaling的法没有前途。VLA是机器领域第次验证了ScalingLaw可性的路线，所以我们现在最重要的事是在技术基础上迅速Scaling，到年底要做到现在多两个数量级的Scaling。

何嘉伟：对我们星源智来说，Show Demo和做产品不冲突。我们产品定义是带有具脑域控制器的整套解决案。具脑能不断Show新能，这种具身大脑进化能赋能下游落地。

同时我们发现具脑域控制器的概念还是偏早期，现在很多公司还主机+wifi与机器通信，或上代JetsonOrin域控制器。在不断迭代脑和域控制器部署态的过程中，实际能带来很多商业化落地项产出，包括具体可执的Demo。

7.团队建设：多学科协同与人才吸引

刘欣（主持人）：大家都融到钱了，紧接着该抢人才了，请所有嘉宾分享一下，你们所在的公司，对于人才团队的构建是怎么考虑的，机器人分为“软”和“硬”，现在有很多来自偏科研背景的人进来，我们的人才比例里面，偏学术背景的和偏传统工程背景的比重大概是怎么样的？大家有没有自己这方面的见解？

陈佳玉：我们公司大概有三个团队的人，分别做本体、数据和算法，因为我们认为，这是物理AI的三个核心部分。我所带领的是做大脑算法团队，约为10个人，整体偏学术，就是要探索前沿技术，比如基于VLA的知识学习，以及能够捕捉到因果的世界模型。

我们也有商业化团队，探索出了已经商业化的产品，比如智能充电机器人、智能咖啡机器人等。因为数据团队和本体团队偏程，要结合具体商业需求（场景需求+任务需求）来。

吸引才最重要的是三个点：有共同的愿景、有较清晰的路线、有很好的商业化成果。

朱政：公司现在大概有100人左右，因为是创业初期，绝大多数是研发人员，可能占到80%左右。

这些人里主要是两块背景：一块是计算机视觉出身的背景；一块是机器人robotics的背景，可能计算机视觉出身的背景会比较偏算法偏软一些，Robotics可能会偏机械、工程本体一些。

但是内部并没有划分算法部门和硬件本体部门，我们是放在同一个研发部门里。其实大家会在一起工作，因为在大模型的背景下，不管robotics背景的人，还是计算机视觉出身背景的人，其实大家的目标是一致的：让世界模型到VLA、到强化学习的整条链路在本体上打通。

同时，语模型、具智能是前才密度最的两个业，这两个领域本对才有天然吸引。

解浚源：背景没有那么重要，各各业都有各种各样的。最重要的是找脚踏实地的、聪明并且愿意脚踏实地做事的，从各个业都能找到。

在公司发展早期，优秀的会吸引优秀的人；在中后期，做出好的东西、好的技术会吸引优秀的。

何嘉伟：公司是智能研究院孵化的，所以技术积累是依托于智源研究院的一些研究成果，包括北京大学的研究团队，我们在研究方面还是非常前沿的。

在工程这一侧我们也非常重视，因为整个产品包括域控和大脑，所以工程化主要就是做一些嵌入式开发，以及包括算法的研发，还有一些部署方面的工程化。

对于吸引人才，一是希望能够吸引志同道合的人，二是因为我们的研究相对比较前沿，也希望有相关领域的科学家加入到团队当中来。

刘欣（主持人）：我们星源智是智源研究院孵化的具身智能企业，有一定的技术积累是依托于智源研究院及包括北京大学的研究团队，所以我们在技术方面是非常前沿的。

在工程这一侧我们也非常重视，因为整个产品包括域控和大脑，所以工程化主要就是做一些嵌入式开发，以及包括算法的研发，还有一些部署方面的工程化。

对于吸引人才，一是希望能够吸引志同道合的人，二是希望有相关领域的科学家加入到团队当中来。

陈佳玉：五年后希望机器能：替代类做擦玻璃、核设施及能源运维等的危险工作，同时也希望机器人能进家庭，解放家务劳动时间，让们更好与家相处。

我们算法团队集中做家居场景，第阶段让机器在有在的动态场景很好完成多任务，形成多场景数据分类后再部署到更多场景。

我们公司扮演的角色，特别是我所在的算法团队，首先集中做的场景就是家居，想让机器人能在有人在的动态场景里，很好的完成多任务，可能第一阶段就是让他去完成一个固定家庭的多任务，形成多场景的数据分类之后，再把它的部署到场景里，大概的路线是这样的。

如果用一个词总结就是方向，具身智能很火，但具身智能的发展路线没有收敛，也不知道什么方向会带我们实现ChatGPT时刻；另外是应用方向，大家也存在争执，大家也不知道到底是应用到工业、商业还是家庭，所以用方向这个词比较贴切。

最后再补充一点，大家现在都认为VLA和世界模型是收敛的路线，但是我们认为VLA和世界模型只是Agent知识库的一部分，如果用学术一点的话讲，应该包含实体、实体间的relation，和持续抽象。持续抽象又包含“dynamics（动态）的实际抽象”和“策略的实际抽象”，世界模型可能只是dynamics的持续抽象，也就是它可能只是我们需要知识库的一部分。

也就是说，我们的具身智能方向还没有确定，技术还没有收敛，还有更多需要做的事情。

朱政：常赞同陈总观点。语模型替代了很多重复的脑作，主要是领使。具智能最的处是把类从危险、重复以及苦的体劳动中解放出来，让类有更多时间去休息、娱乐，追求更多的价值，不是限于重复的家庭劳动、危险的体劳动、或不得不花费量时间处理的事务。

这是具智能在未来五年给我们最的希望，与语模型的侧重点不样。当然也有可能是语模型结合具智能，会解决更多的事情。

如果用一个词来总结，我认为是聚焦，因为语言模型能够成功，是因为这些比较大的公司足够聚焦。

解浚源：我的观点可能跟前两位差不多，在当今世界，AI在吟诗作画、写文章、写代码，人在洗碗、叠衣服，我们希望纠正这件事。

何嘉伟：我认为真正具身智能的ChatGPT时刻意味着，对个家庭来说，能够多个家庭成员；对个或商业场景来说：就是多份产。

用一个词总结是闭环，包括从研究到工程，再到部署的整个链路闭环，也包括从软件到硬件、从算法到算力，再到本体的整个闭环。

（封面图及文中配图来源：2025甲子引力年终盛典）

来源：网易

本主题由版主或管理员于 2025-12-27 11:37 审核通过

0 举报本楼

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2025-12-27 22:43 , Processed in 0.347014 second(s), 18 queries , Gzip On.

Discuz Licensed

回顶部

		自动登录	找回密码
密码			注册

五位技术大咖共话：具智能模型何时迎来ChatGPT时刻？｜甲子引力 [复制链接]

浏览过的帖子

浏览过的版块