2017年,一篇标题看似简单、甚至有些狂妄的论文在线上出现:《Attention Is All You Need》。
在当时的AI研究界,这是一个石破天惊的宣言。它提议彻底抛弃被奉为圭臬的循环神经网络(RNN),只用一种名为“注意力”的机制来处理语言。最初,许多人对此持怀疑态度。然而,这篇仅15页的论文很快就点燃了一场燎原之火。它所提出的Transformer架构,以摧枯拉朽之势,重塑了人工智能的版图。今天,从驱动你手机输入的预测文本,到生成惊艳图像的DALL-E,再到改变世界的ChatGPT,其底层的心跳,都源于那篇论文。截至发文,其在 Google Scholar 上的引用次数高达 197159 次。
论文的火爆,也让研究圈的目光落在了背后的作者——当时在 Google 的八位科学家:Ashish Vaswani、Niki Parmar、Jakob Uszkoreit、Illia Polosukhin、Noam Shazeer、Llion Jones、Lukasz Kaiser 和 Aidan Gomez。随后,他们因这项开创性工作而在 AI 技术圈声名鹊起,被众人称之为“Transformer 八子”。
几年之后,随着 Transformer 的影响力不断扩大,人工智能领域也迎来了创业热潮。八子中的七位已各自踏上创业之路,成为 AI 产业浪潮中的商业巨擘。唯有一人,选择了一条截然不同的道路。他放弃了创立商业帝国的机会,转而加入了将 AGI 作为最终使命的OpenAI,深度参与并主导了GPT-4、GPT-5以及代号为“o1”和“o3”的推理模型等核心研发工作,继续在人类知识的边界上,做一个执着的探索者。他,就是Lukasz Kaiser。
这个十月,这位传奇人物将重返舞台中央,讲述他所看到的未来。
从巴黎到山景城
故事的开端,并非始于美国硅谷那种充满咖啡因与代码气息的车库,而是在欧洲古典学术殿堂的宁静之中,在逻辑、数学与游戏的纯粹世界里。Lukasz Kaiser 的学术 DNA,从一开始就刻满了对系统、结构与规则的极致探索。
他在波兰弗罗茨瓦夫大学获得了计算机科学与数学的双硕士学位,随后前往德国,在声名显赫的亚琛工业大学攻读博士。在这里,他选择了一个异常艰深且抽象的领域:“自动结构上的逻辑与博弈”(Logic and Games on Automatic Structures)。这不仅仅是代码,更是关于计算世界最底层规则的哲学思辨。他试图回答,机器如何能理解并操作那些由有限自动机定义的无限、复杂的结构。这像是在为未来的 AI 大脑,预先设计一套最底层的操作系统,一套关于“如何理解世界”的元规则。
这是一个充满了巨大不确定性的抉择。他放弃的是一条清晰、荣耀且安稳的道路,奔向的是一个当时在许多人看来还很“虚”的领域——深度学习。他后来在一次访谈中,半开玩笑地解释了这种转变的心路历程:“成为一名理论计算机科学家要容易得多,因为你可以在 20 年里做同样的事情。你可能会证明不同的定理,但在宏大的图景中,它是同一件事。” (“It's much easier because you do the same thing for 20 years...it's in the big picture it's the same thing.” - Future of LLMs, Pathway Meetup, 2024).
这句看似轻松的话语背后,是一位顶尖智者对“重复”的厌倦,和对“变革”的极度渴望。他接着说:“深度学习完全不同,每两年,你就要做一件完全不一样的事情。” (“Deep learning is not like that, every two years you do a totally different thing.” - Future of LLMs, Pathway Meetup, 2024).
他敏锐地感知到,一个全新的时代正在来临。当他踏入 Google 位于山景城的办公室时,自然语言处理(NLP)领域正被一堵巨大的城墙所围困,而城墙的名字,叫做“循环神经网络”(RNN)。
当时的 NLP 领域,RNN 及其变体 LSTM 是绝对的统治者。它们通过一种序列化的方式处理文本,像一个正在阅读的人类,一个词一个词地读下去。然而,这种机制存在一个致命的缺陷:健忘。当句子变得很长时,模型往往会忘记开头的信息,这被称为“长距离依赖问题”。整个 AI 界都在尝试加固这座围城,比如设计更复杂的门控机制,但没有人想过,或许可以推倒它。
Kaiser 和他所在的团队,成为了最早的“攻城者”。他清晰地指出了问题的根源:“当神经网络诞生时,它是为图像识别而生的……但句子和图像完全不同。” (“When neural networks first came out, it's built for image recognition to process inputs with the same dimension of pixels. Sentences are not the same as images.” - AI Frontiers Conference, 2017).
图像是并行的、一览无余的,而 RNN 却强行让语言处理也变成了线性的、一步一步的“管道”。
更致命的是,RNN 的串行特性与硬件的发展趋势背道而驰。“RNN 非常慢,它们一次只能处理一个句子,非常循序渐进。这与当时正在建造的 GPU 和 TPU 不太匹配。” (“These RNNs they were quite slow... they were very sequential. So so it was not a great fit for the GPUs and TPUs that were being built at the time.” - AI for Ukraine Talk, 2023).
就在这时,一道微光出现了。2014 年,Ilya Sutskever 等人提出了 Seq2Seq 模型,带来了突破,但 Kaiser 等人很快发现,它在处理长句时依然乏力。于是,他们引入了一种名为“注意力”(Attention)的机制。这个想法的本质,是允许模型在翻译或生成文本时,可以回头“看”一眼输入句子的所有部分,并动态地决定哪些词最重要,而不是仅仅依赖于最后一个隐藏状态。
这束微光,起初只是作为 RNN 的“增强补丁”,但 Kaiser 和他的同事们意识到,它可能拥有远超于此的潜力。一个颠覆性的问题开始在团队中酝酿:如果我们扔掉 RNN 这座城墙,只留下“注意力”这束光,会发生什么?
八子集结,一战封神
这个疯狂的想法,将 Google Brain 最顶尖的一批头脑聚集到了一起:Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Illia Polosukhin,以及 Lukasz Kaiser。
他们面对的,是一个前所未有的工程与科研挑战。为了快速迭代这个完全基于注意力的新模型,他们需要一个强大的实验平台。这个重任,落在了 Kaiser 和当时还是实习生的 Aidan N. Gomez 身上。他们开始着手开发一个全新的开源库——Tensor2Tensor(T2T)。
这不仅仅是写代码。T2T 体现了 Kaiser 对“普惠 AI”的深刻思考。他一直觉得,当时的深度学习门槛太高:“我们发现人们仍然很难进入机器学习领域,开始他们的第一个模型,让系统运转起来。” (“We found it is still quite hard for people to get into machine learning, start their first model, get their system working.” - AI Frontiers Interview, 2018).
2017 年,论文完成了。标题由 Jakob Uszkoreit 提出,充满了自信甚至一丝“嚣张”:《Attention Is All You Need》(你所需要的全部,就是注意力!)。这个标题完美地概括了他们的核心思想:注意力机制不是配角,它本身就是一切。
论文的脚注里,有一句谦逊而动人的话:“贡献相同。作者排序随机。”(Equal contribution. Listing order is random.)
这不仅体现了团队的协作精神,也让这段故事增添了浓厚的传奇色彩。
《Attention is All You Need》不仅仅是一篇学术论文,它是大模型理论的奠基性文章,开启了人工智能新纪元的钥匙,为通往通用人工智能(AGI)打开了一扇前所未有的大门。
当它被发布在 arXiv 上时,整个 AI 界感受到了强烈的震动。时任 OpenAI 联合创始人的 Ilya Sutskever 后来回忆,当他读到这篇论文时,立刻意识到“这就是我们需要的全部东西”(It was all we needed)。
这种从怀疑到震惊,再到彻底信服的转变迅速蔓延。Transformer 架构以其无与伦比的并行计算能力和对长距离依赖的出色捕捉,彻底摧毁了 RNN 的围墙,迅速成为 NLP 领域的全新范式,并很快将其影响力辐射到计算机视觉、语音识别、生物信息学等几乎所有 AI 子领域。
这篇论文,是 Kaiser 内心深处对通用人工智能(AGI)追求的第一次公开“低语”。他提出的核心问题是:“我们能否创建一个统一的深度学习模型来解决跨多个领域的任务?” (“Could we create one deep-learning model to solve tasks from multiple domains?” - AI Frontiers Interview, 2018).
在当时的采访中,他坦诚地反思:“这个模型是否理解世界?它是否真的给了我们比现在特有的智能更通用的东西?这很难回答,但我们正在这条路上,也许几年后,我们可以说更多。” (“Does this model understand the world? Does it really give us something more general than the specific intelligence that we have now? It is hard to say, but we’re on the way. And maybe, in a few years, we can tell more.”)
这句话,如同一个预言。它预示了 Kaiser 的职业生涯轨迹,必然会从解决“特定”问题的 Google Brain,走向那个以“通用”为最终使命的地方。
回看当年的预言,如今已逐渐成为现实:GPT-4V、Sora 的多模态能力崛起,万亿参数模型层出不穷,Agent 持续扩展影响力,AI 云服务普及全球—— Kaiser 的远见卓识,不仅引领了技术潮流,也为 AI 发展的方向提供了重要参考。
而今,当被问及未来,他的思考也更为深刻。他近期分享道,AI 的下一个阶段,关键在于教会模型“思考”:“未来的关键,在于让模型通过生成更多中间步骤(即 ‘更多 tokens’)来进行更深度的 ‘思考’ 和推理,而不仅仅是直接输出答案。” (“If you teach the model to think, then your more layers we're getting better generalization. Longer thinking, more tokens will give you even more.” - Future of LLMs, Pathway Meetup, 2024).
他预言,未来的计算力将从大规模的预训练,转向在少量、高质量的特定数据上进行海量的推理计算。这是一种更接近人类智慧的模式,也预示着 AI 即将迎来的又一次范式转移。