都是“世界模型”(World Model)惹的祸。比如,作为读者的你,WM、WEWA、VLM、VLA你能分清吗?
确实,在“端到端”大模型火了之后,“世界模型”的出现,让高端智驾的概念变得丰富和复杂起来。然而,问题也就出现了。怎么才算真正的“世界模型”呢?还有跟VLA是个什么关系?
最近有人“打假”。“不知道中国有哪些友商真正做出VLA而不是做成一个变形的VLA,我现在所看到的部分公司,是做一个嫁接的VLA,从我所了解的信息来看,中国把VLA真正做出来的,只有我们一家。”
这是8月27日何小鹏在全新小鹏P7发布会后群访时爆出来的一番话。虽然没说明对象,但是,在小鹏之前宣布VLA量产上车的,只有理想。
不仅如此,还有对VLA和世界模型都不满意,说要做WEWA的。
就在同一天,华为智能汽车解决方案BU CEO靳玉志出来讲,“我们不会走向VLA的路径。我们认为这样的路径看似取巧,其实并不是走向真正自动驾驶的路径。”
原因在于,“华为更看重WA,也就是World Action,中间省掉Language这个环节……直接通过Vision 这样的信息输入控车,而不是把各种各样的信息转成语言,再通过语言大模型来控制车。”
所以,我们得回答一个问题,小鹏为什么炮轰友商的VLA?华为怎么也喷VLA?
先说下VLA(视觉-语言-行为大模型)。实际上,在VLA火之前,端到端+VLM基本是智驾行业主流技术方案之一。我们可以这样理解,VLA是在端到端+VLM基础之上的技术进化形态,解决了端到端+VLM的一些局限性。
同样,在一定程度上,VLA“原生融合”的更高级模式也有赖于端到端+VLM“外挂”模式的技术积累。
不过,虽然VLA有很好的可解释性,可空间的感知能力很弱,这也是华为省掉Language这个L的原因。华为直接上了WA(World Action)。
有人反对就有人同意,元戎启行就很挺VLA。元戎启行的CEO周光发布自家的VLA模型时,称“VLA模型的下限已超过端到端的上限”。周光也称,“语音控车只是VLA的基础能力,最难的是思维链(Chain of Thought, CoT)和长时序推理。这才是VLA真正的核心能力。”
再说小鹏汽车,为啥炮轰友商,说自己才是真的VLA?原因不好说,但小鹏发布的全新P7车型,在硬件配置上进行了大幅升级,一口气搭了三颗图灵芯片,而且计划9月通过OTA上车VLA。
当然,理想跟小鹏不同,是在车端用快慢双系统,快系统为端到端E2E,慢系统的VLM(Vision-Language Model,视觉语言模型)部署参数为22亿(2B)。
随后,理想还在端到端+VLM的基础上升级,英伟达2025春季GTC大会上理想自动驾驶技术研发负责人贾鹏说,理想从零开始设计和训练基座模型,它将支持理想实现MindVLA(Vision-Language-Action,视觉-语言-行动)智驾算法模型的量产上车。
实际上,理想所谓的基座模型就是世界模型,部署在云端,以“仿真训练+场景验证”为核心,作为端到端+VLM系统的“考试系统”。理想用了车端的VLA这个概念来做营销而已。
但很明显,小鹏对于部署在车端搞VLA是嗤之以鼻的,因为参数量根本不够。李力耘认为,车端的“端到端”模型很小,有些东西很难学进去,但通过云端大模型的能力,能够真正有一些智能“涌现”。
而此前2025款小鹏X9上市发布会上,小鹏汽车自动驾驶副总裁李力耘就表示,小鹏正在研发720亿(72B)参数的超大规模自动驾驶大模型,即“小鹏世界基座模型”。
小鹏世界基座模型是一个以大语言模型(LLM)为骨干网络,使用海量驾驶数据训练的多模态大模型,具备视觉理解、链式推理和动作生成能力。小鹏的方法,是通过云端蒸馏小模型的方式,将基座模型部署到车端。从云端到车端。
李力耘还表示,“真的就是大道至简,因为暂时不去考虑部署的问题,先通过最简单的模型、最纯粹的架构、最海量的数据,达到一个真正超越涌现的、你未曾想到的,可能在现在‘端到端’看来都是惊喜、未来都是日常的这样一个能力的涌现,这是我们最大的不一样。”
我们不能忽略一点,行业进化过程中,好不容易才从两段式端到端进化到一段式端到端,VLA也好,世界模型也好,都是在尝试和试错阶段的新方法,本来没什么对错。现在为这个争,其实还是因为博弈。
对于这些概念,地平线的相关负责人则在HSD体验日上就我的问题表示,“不管是我们现在讲的端到端,加VLM还是VLA,还是World Model,本质上它都是一个端到端。只是说,我觉得在国内,大家过于去强调新的理念和概念。”
说起来,“世界模型”这个做法(概念很早就有了)是谁提出来的呢?特斯拉。马斯克提出了“世界大模型”这个做法。
这个世界模型的作用是什么?是特斯拉为了实现全球范围內所有路况的自动驾驶,在感知跟决策中间,嵌入了一个AI大模型,主要是构建一个虚拟环境,以便进行自动驾驶能力的学习和验证。
做法是,首先将真实世界的数据转化为虚拟环境,就是所谓“重建”。然后,虚拟环境帮助系统在不同条件下进行能力验证和优化,即“生成”数据。这个“外挂”AI大模型与决策规划控制部分紧密相连。
而在国内,首先提出这个概念的是蔚来。2024 NIO IN(蔚来科技创新日)上,蔚来智能驾驶研发副总裁任少卿发布蔚来世界模型(NIO World Model,简称NWM),并宣布蔚来智驾从“感知驱动”转入“认知驱动”。
当然,虽然都叫世界模型,马斯克的WM,和蔚来提出的NWM,华为提出的WEWA,还是有差异的。
具体而言,蔚来的世界模型是想一步到位,直接在车端构建一个平行世界引擎。换句话说,采用云端训练+车端推理的双架构,直接通过生成式模型(如SORA)生成轨迹规划,也就是从原始的传感器数据直接生成控制指令,跳过L这个语言中间层。
这里插一句,根据比较专业的说法,世界模型,就是视频生成加prompt控制。而视频生成有四大类型,基于对抗网络GAN的,基于扩散模型的,基于自回归模型(基本上就是transformer)的和基于掩码的。
其中,扩散模型再分为Stable Video Diffusion(SVD)和Stable Diffusion(SD)两种,据说特斯拉就是用的SVD。而大名鼎鼎的SORA则是复合型,SORA模型的核心组成包括DiT、VAE和ViT(这个太专业了,略过不提)。
蔚来的设想是“无需人工标注”。底层逻辑,是把“感知-决策-控制”整合为统一的生成式模型,然后一切都在车端瞬间完成。
但这一设想和操作有个BUG。这对车端的算力需求极高,且生成式模型的实时优化问题并未完全解决。直到2025年5月底,NWM才正式全量推送。革命尚未成功,同志仍须努力呀!
而华为提出的云端+车端的WEWA模型和蔚来的WM其实原理一样,其中,云端的WE(World Engine,世界引擎)相当于“AI驾校”,车端的WA(World Action Model,世界行为模型)则是采用一段式端到端架构的“AI驾驶大脑”。
从算力来说,华为WA总参数规模相当于80亿参数(8B)模型,实际激活等效20亿参数(2B)模型的算力负担,华为讲,车端算力消耗降低75%。请注意这个数据,可以跟理想对比一下。
其实,说到底,生成式世界模型之所以被用来解决智驾的数据难题,是在于以世界模型生成Corner Case数据,让智驾系统在这个虚拟环境中通过“状态→动作→奖励”的循环来优化感知和决策能力。而且,需要车端和云端的共同作用。所以,既然讲的角度不一样,那还不如是骡子是马拉出来溜溜再说。
相对于VLA,地平线的相关市场负责人是这么讲的,“我可能会更看好World Model一些。同时,还是回到那个点,所有新技术的采纳,最终要看产品的收益在哪?因为这些东西它万变不离其宗,到最后都是一个端到端的模型。如果你带不来收益,那我就不太会去用。”
还有一点是比较现实的,“所有的新方法,它的好处是什么?它前50%的收益是好拿的,后50%的收益是贼难拿的。但是,你像端到端这种,你的整个收益没有拿好的情况下,去拿别的收益的话,也会有很多问题。所以,最终我觉得评判的标准就一个,这个方法在产品上的收益高不高?”
|