唐小引:业内普遍认为,2025 年很可能成为具身智能的“元年”。尽管目前对于百模大战的最终结果尚无定论,但时下行业竞争明显主要在多模态和具身智能领域展开。在英伟达 GTC 大会上,黄仁勋曾高调宣布“通用机器人时代已经到来”。同时,他还提出了 AI 发展的四个阶段:第一个阶段是“感知 AI”,它始于 2012 年的AlexNet深度学习模型,并于今年开源了原始代码;第二阶段是“生成式 AI”,以 ChatGPT 为代表,标志着 AI 从识别走向生成;第三阶段,便是今年正在兴起的“自主智能体AI”(Agentic AI),强调推理能力与自主行动;而第四阶段,也就是“物理 AI”时代,则关注 AI 如何真正理解物理世界并进行交互。这一思路或许能帮助我们更清晰地看懂 AI 的进化路线。
黄浴:我最初学信号处理出身。在研究生阶段,因一次偶然的机会,我有幸聆听了一位来自美国的知名计算机视觉专家 Thomas S.Huang在西北工业大学的学术报告。这场报告让我对计算机视觉产生了极大的兴趣,尤其是他提到的一些与国防相关的应用案例,让我意识到这个领域的潜力和前沿性。因此,在读博士阶段期间,我决定转向计算机视觉方向这一研究方向。
彼时,这一领域尚处于早期阶段,研究进展相对缓慢,多数成果仍停留在实验室层面。相较于计算机视觉,图像处理的技术发展稍为成熟。我还记得我的研究生导师曾讲过,在他早期的科研中,处理一幅图像需要三四个小时,主要受限于当时的计算能力和内存瓶颈。在那个时代,处理视频任务几乎必须依赖专用加速卡,因为通用计算平台(例如基于 Windows 系统的 PC)难以胜任高强度图像处理的需求。在进入这个领域后,我被计算机视觉中严谨的理论体系和优雅的数学建模所吸引,特别是在贝叶斯理论和概率图模型的基础上,整个研究框架展现出高度的抽象性和美感。
目前,我尤为关注的是如何降低机器人智能系统的成本。无论是机器人还是具身智能平台,其硬件成本和开发门槛依然居高不下。我们希望推动这一领域像 PC 产业一样实现普及化,让更多开发者能轻松参与其中,这将极大地促进 AI 生态的繁荣。李飞飞教授近期提出的“空间智能”概念,也再次强调了“交互能力”在智能演化中的核心地位。他指出,仅依靠视觉进行环境感知的生物,其智能发展远不及能与环境主动交互的生物。因此,具身智能将可能成为推动下一代 AI 发展的关键力量。
我们相信,推动具身智能的普及化、平台化,可能是实现真正全民智能社会的突破口。
唐小引:此前,DeepSeek 团队发布了DeepSeek VL2混合专家视觉语言模型,该模型在计算机视觉应用中能够发挥重要作用,有望推动该领域取得突破性进展。在当前 AI 发展的背景下,计算机视觉还是一个值得长期投入的方向吗?
可以说,视觉领域在传统小模型范式下的发展已接近瓶颈。要突破这一限制,我们必须依赖大模型的能力。大型模型可以融合来自多种模态的信息,将感知、理解、记忆、反思、推理等多个层面的能力整合在一起,模拟人类更全面的智能模式。其中包括了对内容的深入理解、记忆和反思、思维链的组织方式等,这些核心认知能力的引入,只有在大模型的框架下才有可能实现。正是这种整合,使得我们有机会在计算机视觉、人机交互以及更广泛的 AI 应用中,实现真正意义上的跃迁。
关于具身智能的未来,一个重要问题是:我们是否能在这一领域构建出通用大模型?目前,行业中已有相关尝试。例如,英伟达最近发布的Cosmos 世界基础模型平台以及 GROOT 人形机器人基础模型,正是在探索这一方向。大家也在讨论:机器人基础模型能否引发一波热潮?如果成功掀起一波浪潮,正如黄仁勋所设想的那样,我们将迎来具身智能的重大跃迁;如果做不起来,可能就像 OpenAI 早前发布的 Sora 一样,引发争议和反思。
近年来,关于群体智能的具体表现形式也有了更明确的讨论。例如,认知系统中常被提到的 System 1 和 System 2(对应快速反应与慢思考)已经广为人知。而一些研究者进一步提出 System 3,用于描述群体智能的运作机制;甚至还有 System 0,用以指代尚未形成认知的“预认知状态”(pre-cognitive state)。
现实中的机器人系统往往是“拆分式”的:要么专注行走,要么做导航,要么执行某项任务,很少能真正整合多个功能,像人类一样自然流畅地完成一件完整的事。这就引出了算法方面的挑战。高自由度系统的控制十分困难,尤其在具身智能中,每增加一个感知通道(如视觉、触觉、听觉),模型所需处理的维度就更高,算法的鲁棒性也随之下降。传统算法设计中,我们常用“分治算法(divide and conquer)”策略,把高维问题拆解为多个低维子问题。
我认为,这种以低成本快速迭代、落地应用,再通过逐步实现商业价值,进而回收成本,最终反哺数据质量提升的模式,可能是最符合当前产业发展需求的一条路径。毕竟,即使是像 Google 这样资源丰富的公司,也难以长期承担纯靠高投入堆砌数据的方式。
当然,短期内我们也能看到一些经验教训。在大语言模型早期发展阶段,训练数据主要是文本,且绝大部分是英文。这些数据来源广泛、共享良好,且利用自监督学习的方法(如 Masked Language Modeling)基本不需要额外标注,极大降低了成本。而具身智能则不同,一开始就缺少可以直接用的大规模高质量数据。