通信人家园

标题: 国产AI首次「长出」原生记忆,非Transformer架构成新王!机器狗当场引爆WAI  [查看完整版帖子] [打印本页]

时间:  2025-7-27 17:42
作者: see122     标题: 国产AI首次「长出」原生记忆,非Transformer架构成新王!机器狗当场引爆WAI





新智元报道

编辑:编辑部

【新智元导读】就在刚刚,这家国产黑马首创的非Transformer架构大模型,再次重磅更新!训练效率远超Transformer架构,在WAIC上直接引起了火爆围观。现在,端侧智能的iPhone时刻真正来临了。

就在刚刚,WAIC世界人工智能大会上,国产黑马RockAI又给我们带来满满的惊喜。

全新版本的大模型Yan 2.0 Preview正式亮相了!



现学现记,猜猜我们喜欢的饮料是哪瓶?

它不仅可以在灵巧手、机器狗、PC、平板等多个终端上应用了,还是无损部署的。


由此展现出的模型自主学习能力和多模态能力,都让人为之惊叹。

原生记忆

一教就会,精准回答

比如下面这个机器狗,刚开始还不会和人打招呼。

为此,工作人员给机器狗亲自演示,录了一个视频,比如这个动作,就叫打招呼。

看完视频后,机器狗竟然就秒速学会了这个动作!



下一个指令,是让它帮忙拿一瓶饮料。没有学过的它,同样不会做。

接下来,只要对着摄像头向它展示——「这是我喜欢喝的饮料」,它就立马学会了。

在两瓶饮料中,它正确选出了指定的那瓶,表现实在惊艳。



甚至,下面这个会看、会听、会想的灵巧手,既能自主玩游戏,还能听懂人类指令,立刻在黄金矿工游戏中完成抓黄金和推箱子的任务。



注意,这个过程中不仅需要灵巧手极其精细地操作键盘,还需要它用「大脑」来完成思考,做出精准判断。

令人惊喜的是,它非常准确地做到了!



这些能力,即便是OpenAI在内的大厂商目前都做还不到。足以见得,RockAI已经走在了行业的最前沿。

离线智能

真正的端侧AI

为什么说,Yan架构大模型能够实现100%的离线部署,成为真正的「端侧AI」?

答案,就藏在它颠覆性的底层架构之中。

和目前绝大多数的模型不同,Yan2.0 Preview基于的是RockAI首创的非Transformer架构。

它不仅非常轻量而且性能强悍——仅凭3B的原生参数,便在多项关键测试超越了规模更大的Llama3 8B。

更重要的是,它的训练效率远超统治当今AI界的Transformer架构。




据悉,更大更强的40B模型已经在路上了!

而今,继Yan 3B模型成功通过备案后,Yan 2.0 Preview版更是带来了两大突破性的能力飞跃。

第一点,就是它有了连续的视频理解能力。

比如当人在机器狗面前做各种连续动作,它就可以原样复刻,这部分归功于模型的视频能力。

Yan 1.3通过多模态扩展实现对图像与音频的理解和处理,而Yan 2.0 Preview进一步支持视频模态,相当于补齐了多模态里的视频的最后一环。

因此可以说,Yan 2.0做到了真正的多模态:一个模型不仅能处理文本,还能处理图像、音频和视频,同时端到端生成文本和音频。




第二点,就是在1.3的架构上,2.0创新性引入基于神经网络的记忆单元

具体来说,在神经网络参数层「内置记忆」,通过可微的记忆模块来实现信息的存储、检索和遗忘。




Yan 2.0 Preview架构示意图

如上图所示,前向过程可分为记忆更新与记忆检索两个阶段。

记忆更新是动态调节:前向过程中,既能通过门控式更新保留长期依赖,又能基于输入分布特性灵活整合新知识。




不同于「上下文工程」等方案对记忆信息的显性存储,RockAI将有效信息隐式地记忆到多层神经网络的权重,通过神经网络的多层级抽象、非线性建模等能力,实现更优的记忆性能。

在原理上,这种记忆机制与其他记忆机制的差距,好比早期机器学习与深度学习的差距。

这种记忆机制,不像其他远端的大模型通过RAG等形式加入前置数据库。要知道,后者的记忆模式都是外置的,模型并没有真正记住这些信息。

可以说,采用了特征状态驱动的记忆机制方案的Yan 2.0 Preview,已经初步验证——记忆网络是有效的。

之所以加入记忆模块,是因为要让AI像人一样边说边学,AI必须要有记忆。

在基于训推同步的自主学习路线上,RocKAI迈出了坚实的一步。

这一点,无论是在灵巧手玩游戏时的多模态实时人机交互上,还是机器狗的训推同步上,都淋漓尽致地体现了出来。

而在这个过程中,RockAI发现,他们并不孤独:自己的路线,竟然跟硅谷大厂的探索所见略同。

无论是谷歌的Titan架构,还是Meta首席科学家LeCun都在强调——必须给模型引入记忆模块,因为AI的学习能力≈记忆能力。







但不同的是,这一次,RockAI是先行者。

Yan 2.0 Preview不光探索了非注意力机制的记忆可能,还第一次实现了LLM记忆能力验证

接下来,我们就进入了下一个问题:非Transformer架构的创新,给Yan架构大模型带来了什么?

真正在消费级硬件上跑通

因为架构层面的这种创新,Yan架构大模型就完全不需要依赖云端算力,可以在消费级硬件上跑通了。

因此,它可以直接赋予每个端侧设备「灵魂」。

它不仅能在无人机、机器人、PC、手机等终端设备中丝滑适配,而且还能让模型智能迎来全新升级。

因为无需阉割模型,端侧设备就更加具备了完整性、可持续性。

而基于Transformer架构的模型,若想在端上运行、并自主学习,根本就不可行。

因为模型通常会被量化裁剪压缩之后,才会植入端设备。而被阉割之后的模型,就不再具备学习能力。

但Yan架构大模型,就规避掉了这种短处。

在不同小型终端条件下,Yan架构大模型表现始终卓越。

在手机端,Yan架构大模型已广泛适配高通、联发科等芯片。Yan架构大模型可在CPU运行、零压缩零裁剪、量化等,RAM只要8G,而且表现不俗。

在小米13上,每秒至少可输出18 token;在红米K50上,每秒至少可输出12token;在T-phone上,每秒可输7-8token。




在机器人端,Yan模型已广泛适配Intel、树莓派、英伟达等芯片。

只要8G内存,Intel i7 1255u上,Yan架构能机器人拥有看听说想动的能力!




为什么要如此执着,将技术做到如此精细的程度呢?这背后,自然是源于他们对于「端侧智能」一直以来坚定的信念——让世界上每一台设备都拥有自己的智能。

只有为每一台设备安装大脑,才能做到AI普惠,在三四五线城市,在老年人和小朋友都能用的情况下,端侧设备才是真正普惠的应用场景。

说起来,RockAI是怎样决定,不走Transformer这条主流路线的呢?背后的故事是这样的。

非Transformer架构,他们走出了第一步

近些年来,学界和业界逐渐发现,大家好像被OpenAI带偏了:注意力机制并非万能,Transformer缺陷也很多,比如它的复杂度太高,算力需求惊人。

最早的质疑,来自OpenAI的Ilya:「如果互联网公开数据耗尽,GPT预训练如何继续?」

另外,谷歌Gemini产品负责人Logan Kilpatrick在最近公开的未来路线图中,就指出当前注意力的最大缺陷:

以当前注意力机制和上下文处理方式,是不可能实现无限上下文的。

我们需要在核心架构层面进行全面创新,才能实现这一目标。




同时,谷歌也一直在探索非自回归模型Gemini Diffusion。

此外,CMU大牛Albert Gu在2023年就提出了Mamba架构,主张用状态空间模型对序列建模。

最近,他更是痛斥Transformer模型能力上的局限性太大,所谓「token」就是胡扯。




在2024年,「vibe  coding」之父Karpathy也列出了「tokenization」的数条罪状。




可以说,在某些情况下,Transformer绝对不是首选,注意力机制更不是什么铁律!

大模型原生记忆能力,意味着什么?

记忆,不再是外挂

在传统的大模型架构中,知识和信息往往以外挂式方式调用。

无论是依赖RAG来补足知识,还是借助外部数据库临时存储用户数据或者搜索引擎,这类方案都更像是一种「拼接式智能」——强大但缺乏连续性。

而如今,RockAI正在将记忆能力「注入」模型本身。它不再是一个外挂模块,而是模型的一部分,甚至是它的核心。

比如他们展示的那只机器狗,已经能在不断交互中展现出对环境、人的偏好乃至过往经历的「记忆」,表现的行为更像生命体,也意味着:AI开始真正「记住」你。

从交互到理解:个性化的跃迁

有了原生记忆,大模型就不再只是「下一次回答你问题」的工具,而开始成为理解你的人。

它能记住你喜欢什么样的语言风格、你的偏好、你过去的决策习惯;甚至能在你没有明说的时候,通过长期观察为你做出更合适的建议。

原生记忆能力不仅让AI变得更加「个性化」,也让人机关系发生质的变化。

它不再是工具和操作者的关系,而更像是伙伴与合作者的互动。你不需要每次都从零开始,它会逐步成为你思维方式的延伸。

离线部署,隐私与速度的双赢

更重要的是,这样的「有记忆的大模型」并不依赖云端,而是实现了离线部署,所有记忆都发生在你的设备本地:更高的响应速度,更小的延迟,更强的数据安全。

在隐私日益重要的今天,大模型要想真正走进用户的日常生活、深入个人决策层,必须在保护隐私的基础上实现智能化。

而「端侧+记忆」的模式,或许正是这条路的关键解法。

人类智能的底层机制,大模型也开始拥有

人类智能的演化,从来离不开记忆。没有记忆,就无法理解上下文、无法学习经验、无法形成个性。而现在,大模型也终于开始接近这一认知本质。

RockAI的创新之路在国内略显「孤独」,从非Transformer架构设计到终端的记忆能力,再到他们提出的通过群体智能迈向通用人工智能,似乎RockAI成为了创新的孤勇者。

孤独的拓荒人,还是吃螃蟹第一人?

在采访最后,新智元问了RockAI联创一个放飞的问题:几年后,未来的终端智能设备会发展出怎样的新形态?

2007年,乔布斯站在台上,掏出这部小小的手机,让全世界都沸腾了。




自此,iPhone 4改变了人类对工具的使用、延展了人类感官。

但iPhone 4的诞生离不开四个条件:全新的触控交互方式、ARM架构恰巧成熟、iOS操作系统,以及App Store带来的应用生态大爆发。

现在的硅谷大厂,有的押注AI眼镜,有的押注脑机接口,而Rock AI,押注的是芯片和操作系统。

他们判断:AI时代的操作系统一定会出现AI模型层,让设备更智能。

而能在离线设备上运行、功耗极低还是多模态的Yan大模型,就是他们的第一张王牌。

如果「打造AI时代操作系统」这个终极目标能实现,手机、平板、冰箱、电视,这些设备都将真正「长出脑子」。

环顾周围,电子设备已经无处不在:从冰箱到电脑,全球设备总数远远大于全球总人口。

如果每个设备都装上AI,市场该有多大?

如今,3B的RockAI多模态模型能覆盖70%的场景。翻译、会议纪要等常见功能,本地Yan架构大模型就能做到。

如今在行业的上下游,RockAI都有许多合作意愿强烈的伙伴,比如很多芯片厂商、音视频厂商等。

下一个iPhone时刻,或许很快就会到来。假如每个设备都能离线运行AI,我们就将看到未来的图景成真,达到真正的「万物有灵」。





来源:网易


时间:  2025-7-27 19:23
作者: 不吹不黑

开眼界了哈




通信人家园 (https://www.txrjy.com/) Powered by C114