如今,以大语言模型(LLM)为代表的前沿 AI 技术,已经开始改变我们获取和运用抽象知识的方式。然而,它们依然像是「黑暗中的文匠」:能言善辩却缺乏经验,知识丰富却脱离现实。空间智能将彻底改变我们创造和交互现实与虚拟世界的方式 —— 它将重塑叙事、创意、机器人学、科学发现等领域。这正是 AI 的下一个前沿。
纵观历史,空间智能在推动文明发展的关键时刻屡次扮演核心角色。在古希腊,埃拉托色尼通过几何化阴影来揭示地球的尺度 —— 他在亚历山大测量出七度的日影角度,并在太阳直射、影子消失的赛恩进行对比,计算出了地球的周长。哈格里夫斯通过一个空间构想发明了「珍妮纺纱机」:将多个纺锤并列在同一架构中,使一个工人能够同时纺出多股纱线,生产效率因此提升八倍。沃森和克里克通过亲手搭建三维分子模型、不断调整金属板与铁丝的位置,最终发现了 DNA 的双螺旋结构。
正如动物与人类一样,世界模型应能够处理多种形式的输入 —— 在生成式 AI 中通常被称为提示词。当输入信息不完整时,无论是图像、视频、深度图、文本指令、手势还是动作,世界模型都应能够预测或生成尽可能完整的世界状态。这要求模型具备如真实视觉般处理视觉输入的能力,同时又能同样熟练地理解语义指令。这样的能力使得智能体与人类能够通过多样化的输入方式与模型就世界进行交流,并获得多样化的输出反馈。
以 World Labs 为例,我们最近开发的实时生成帧模型 RTFM(Real-Time Frame-based Model)正体现了这一方向的转变。它将空间锚定的帧作为一种空间记忆形式,在保持生成世界连续性与一致性的同时,实现了高效的实时生成。
显然,在通过世界模型彻底释放空间智能之前,我们仍面临着艰巨的挑战。这项研究不仅仅是理论探索,它将成为新一代创造力与生产力工具的核心引擎。而来自 World Labs 的最新进展令人振奋。我们近日首次向少量用户展示了 Marble 的早期成果 —— 这是首个能够通过多模态输入进行提示,从而生成并维持一致性三维环境的世界模型。用户与创作者可以在其中探索、交互,并在创作流程中不断扩展这一虚拟世界。我们也正全力推进,让它尽快向公众开放。
Marble 只是我们迈向真正具备空间智能的世界模型的第一步。随着研究不断加速,更多科学家、工程师、用户与商业领袖开始意识到它所蕴含的巨大潜能。新一代的世界模型将使机器在空间智能方面达到全新的高度,这将开启当今 AI 系统仍普遍缺乏的关键能力。
利用世界模型,
为人类创造更美好的世界
人工智能的发展动力至关重要。作为推动现代人工智能时代到来的一名科学家,我的初心始终清晰:AI 应当增强人类能力,而非取而代之。多年来,我一直致力于让 AI 的研发、应用与治理与人类需求保持一致。如今,关于科技乌托邦或末日论的极端叙事层出不穷,但我依然坚持一种更务实的观点:AI 由人类创造、由人类使用、也应由人类治理。它必须始终尊重人的自主性与尊严。
AI 的真正魅力,在于扩展我们的能力,使我们变得更加富有创造力、更加紧密相连、更高效、更有成就感。空间智能正是这种愿景的体现 —— 一种能让创作者、照护者、科学家与梦想家实现曾经不可能之事的 AI。这一信念,是我将空间智能视为人工智能下一个伟大前沿的根本动力。
纵观这些不同阶段,有几个领域格外值得关注,因为它们最有潜力重塑人类能力。要实现这一愿景,需要集体的巨大努力,远超任何一个团队或公司的能力范围。这需要整个 AI 生态系统的共同参与:研究者、创新者、企业家、公司,乃至政策制定者,都必须携手朝着共同的愿景前进。而这一愿景,值得我们全力以赴。接下来,让我们看看这个未来将来什么。
World Labs 的 Marble 平台正把前所未有的空间创造力与编辑控制力交到电影制作人、游戏设计师、建筑师以及各类叙事创作者手中,使他们能够快速创建并迭代可自由探索的三维世界,而无需承担传统 3D 设计软件所带来的复杂成本。创作行为依然保持其独特的人性与活力,而 AI 工具只是放大并加速了创作者能够实现的潜能。这其中包括:
在教育领域,空间智能能够让抽象或复杂的概念变得可感知、可体验,从而实现沉浸式学习。它还能创造出与人类大脑与身体学习机制高度契合的迭代式学习体验。在 AI 时代,更快、更高效的学习与再培训,对学生与成年人都至关重要。学生可以以多维视角探索细胞运作机制,或亲身「走入」历史事件;教师则能借助交互式环境实现个性化教学;而外科医生、工程师等专业人士则可在逼真的仿真环境中安全练习复杂技能。
无论在哪个领域,空间智能所带来的可能性几乎没有边界,但目标始终如一:让 AI 增强人类的专业能力,加速人类的发现,放大人类的关怀 —— 而不是取代构成人之为人的核心品质:判断力、创造力与共情力。