通信人家园

标题: 100亿都不够烧!机器人公司CEO们给出新判断:具身智能不能再照搬LLM  [查看完整版帖子] [打印本页]

时间:  2025-11-21 09:20
作者: tayun     标题: 100亿都不够烧!机器人公司CEO们给出新判断:具身智能不能再照搬LLM






机器人前瞻(公众号:robot_pro)

作者| 江宇

编辑|漠影


机器人前瞻11月20日报道,在今天举行的2025智源具身Open Day上,智源研究院系统性公开了其在具身智能方向的最新研究进展,并举办了围绕行业核心问题的圆桌讨论。

在现场,圆桌讨论从“世界模型是不是实现具身智能的关键”展开,随后延伸到“具身智能需不需要自己的统一架构、要不要有一套‘具身版Transformer’”。在数据层面,嘉宾们又讨论了在数据又重要又难的前提下,真实数据、仿真数据和视频数据该怎么组合使用。

第二场圆桌则进一步提出“人形机器人是不是具身智能的最终形态、硬件是不是现在最大的瓶颈”的问题。

大咖云集的圆桌讨论把业内当下关键与现实的议题都摆上了桌面。许多嘉宾在多个核心问题上给出了清晰、直接的判断,分歧与共识交织出现。

一、智源的全栈布局:从世界模型到跨本体“具身大脑”

在开场演讲中,智源研究院院长王仲远系统介绍了过去一年在具身智能方向的多项关键进展,他将其概括为两条主线:世界模型的突破与具身大脑全栈体系的成型。



首先,智源发布了原生多模态世界模型Emu3.5。相较上一代Emu3,新模型将训练数据从15年视频扩展至790年,将参数规模从8B提升至34B,并引入自研DiDA技术,使视频、图像生成速度提升至与Diffusion、DiT类模型相当。

王仲远认为,Emu3.5从海量视频中学习,不再是语言主导的“下一个Token预测”,而是面向具身智能所需的“下一时空状态预测”

其次,他介绍了智源正在构建的跨异构本体具身智能体系,包括RoboBrain(具身大脑)、RoboOS(跨本体操作系统)与基于VLA的 RoboBrain-X0。这些模型已在多款不同形态的机器人本体上部署,能够完成导览、导购到复杂交互任务。

此外,智源也展示了在全身控制等方向的能力。宇树G1机器人在其控制框架BAAI Thor的加持下,完成拖动1.4吨汽车的实验



王仲远认为,行业仍未到“具身版ChatGPT”的时刻,但路径已逐渐清晰:以世界模型作为基座,以跨本体的“具身大脑”作为接口层,通过大规模数据平台与评测体系推动模型、硬件与场景的共同演化。

二、四个被反复提到的要素:模型、架构、数据与硬件

1、世界模型是不是具身智能的关键?

在第一场面向“具身模型”的圆桌中,各位大咖讨论首先从“世界模型的作用”展开。

智源研究院院长王仲远谈到,“如果世界模型只是视频生成,那不一定能成为具身智能的基座。”



▲智源研究院院长王仲远

北京大学助理教授,银河通用创始人及首席技术官王鹤也强调,直接让机器人“学人类的视频生成模型”并不成立。机器人真正需要的,是一种能根据自身形态与目标去预测下一步状态的世界模型,而这类模型必须建立在大量属于机器人的数据之上。



▲北京大学助理教授,银河通用创始人及首席技术官王鹤

2、具身智能要不要统一到一套架构?“具身版Transformer”会不会出现?

招商局集团AI首席科学家张家兴提出,具身智能未来不会继续沿用当下“大模型的语言中心范式(language-first)”,而更需要一套“先行动、再视觉、最后语言”的具身原生结构,真正以行动与感知为核心,而非脱胎于LLM路线



▲招商局集团AI首席科学家张家兴

王鹤也提及,“机器人智能是闭环的,而不是一问一答,动作是连续的,现有模型并不天然适配”。

另外,智元机器人首席科学家罗剑岚谈到,具身智能的最终“大模型”一定不是单体模型,而是系统:“真正有效的不是一个模型,而是VLA+世界模型+RL的闭环。”



▲智元机器人首席科学家罗剑岚

3、数据从哪里来?真实、仿真、视频数据如何抉择?

现场,多位嘉宾强调真实数据的重要性,认为机器人必须在真实场景中学习三件事:真实性、多样性和规模化。

王鹤认为,仿真是当前更现实的突破口。他谈到,许多底层控制能力本质上依赖大量强化学习,而这些训练在真实世界几乎无法完成。无论是人形机器人的行走、跳跃等全身控制,还是灵巧手的手内操作,几乎都需要在模拟器中完成,“真实世界只能做非常少的微调”。

王仲远则强调视频数据的价值。他认为,视频是最容易大规模获取、又最接近真实世界的关键数据形式。他把这一过程类比为孩子认识世界:小朋友可以先从大量视频中理解外界,再通过真实交互不断校正和提升技能,“具身智能的训练逻辑也是类似的”。

而加速进化创始人兼CEO程昊认为,“真实与仿真会形成螺旋上升,先落地、再采真实、回仿真扩覆盖,再回真实验证。”随着阶段不同、任务不同,真实数据、仿真数据和视频数据都会被用到,“哪个阶段哪类数据好用,就先用哪类”。



▲加速进化创始人兼CEO程昊

4、如果有100亿,你会怎么花?

在这场圆桌的最后,主持人抛出一个较为直接的问题:如果手上有100亿元推进具身智能,你会怎么花?

多位嘉宾给出了直截了当的答案,集中在三个关键词:人才、算力、数据引擎

自变量创始人兼CEO王潜认为,第一优先级永远是“把能吸纳的顶尖人才都吸纳过来”,其次才是算力和数据投入。



▲自变量创始人兼CEO王潜

程昊则称“100亿其实不够”,真正重要的是用愿景与长期进展吸引全球科研人才。

另一类观点则将重点放在基础设施上。星海图联合创始人赵行提出要打造“覆盖物理世界、能持续数字化现实的最大data engine”。



▲清华大学助理教授、星海图联合创始人赵行

张家兴谈到模型层面的投入,希望这笔钱能用来打造“属于具身智能的模型”,并推动能够进行大规模预训练、具备长期演化能力的模型体系。

5、人形机器人是最终形态吗?模型与硬件谁定义谁?

在第二场硬件方向的圆桌讨论了一个产业界长期争论的问题:人形机器人是不是具身智能的最终形态、硬件是不是现在最大的瓶颈

在“模型定义硬件还是硬件定义模型”的问题上,多位嘉宾给达成了共识:两者都不是,真正的决定要素是场景

星源智创始人兼CEO刘东认为,具身智能体系应拆成分层结构:上层的大模型可以跨不同机器人本体复用,但在贴近执行的小脑层,模型必须随硬件结构细调,“同一个模型部署到不同本体上未必最优,比较好的效果往往来自贴着本体调出来的版本”。

北京人形机器人创新中心CTO唐剑给出的判断更为直接:“模型不定义硬件,硬件也不定义模型,场景定义硬件。”他强调,不可能指望一种统一形态解决所有问题,模型能解锁场景,但真正决定机器人长什么样的是具体的落地任务。

结语:具身智能距离真正跑通,还有硬仗要打

无论是围绕“世界模型能否成为基座”的判断,还是对于“统一架构、数据、形态”的分歧,本次开放日给出一个清晰信号:行业积极寻找“跑通闭环”的机会。

能否在真实业务中形成闭环,能否让模型、硬件和规模落地共同“进化”,能否训练出属于具身智能的世界模型,正在行业的“新难题”。

来源:智东西





通信人家园 (https://www.txrjy.com/) Powered by C114