监督是AI研究者的鸦片。
世界模型本身就是一类全新的基础模型。它们既服务于交互式媒体(视频模型),也服务于具身AGI。世界模型是连接虚拟与物理两个领域的桥梁,其真正价值在于跨任务、跨领域的泛化能力。
对于大型世界模型(LWM)来说,这是一个非常棒的愿景,但从像素到物理的跃迁仍然很陡峭。
推理不一定非得依赖语言——视觉模拟(几何、接触、运动)本身就能构成推理过程。
机器人正是视觉为中心的基础模型大显身手的完美舞台。2026将是多模态、多轮交互代理(机器人/CUA)之年,而这一场比赛的胜者,必然会在游戏中更加重视视觉模态。
猿猴的比喻非常贴切。我们太过痴迷语言,以至于忘记了灵巧的行动能力并不一定需要词汇量。2026年或许是机器人技术最终停止依赖语言模型,转而构建原生系统的一年。
| 通信人家园 (https://www.txrjy.com/) | Powered by C114 |