田渊栋
前Meta基础AI研究(FAIR)团队研究总监:
FAIR是负责前沿研究的,就是做一些现在目前看起来没有特别大的应用,但是新的想法、新的思路、新的算法、新的框架、新的模型架构。这样的探索之后可能会有一些大的突破,大概是这样的一个逻辑。
田渊栋
前Meta基础AI研究(FAIR)团队研究总监:
比如FAIR会提供一些很好的想法和工作给GenAI去用,让GenAI把这些想法和工作放进生产,然后在下一代模型中使用出来。
很多人的初心就是说想做一些不一样的东西,或者是与众不同的方向、工作。能不能真正地实现AGI(通用人工智能)?这其实是个比较大的问题。
陈茜
硅谷101联合创始人:
所以FAIR的目的是AGI,但是GenAI它的目的是怎么把AI放在Meta现有的产品中,让AI发生效应。
田渊栋
前Meta基础AI研究(FAIR)团队研究总监:
对,应该说主要一方面是Llama,Llama是一个很大的模型。还有就是怎么样把AI比较好地用在一些具体的应用上。
陈茜
硅谷101联合创始人:
你觉得在FAIR最快乐的一段时光是什么时候?
田渊栋
前Meta基础AI研究(FAIR)团队研究总监:
我觉得从我入职FAIR之后一直到2022年,这段时间是很开心的。因为大语言模型来了之后,整个生态或者说研究者之间的关系发生了一些变化。因为大语言模型来了之后,算力成了很重要的一个因素。
因为算力是有限的,所以就会产生各种问题、各种矛盾。大家都要训练一个很大的模型,如果是这样的话,相互之间就开始有一些问题,比如说如果我卡多了,你卡就少了。因为卡不多就没办法训练出很好的模型,所以在2023年之后这段时间之内,状态肯定不会像以前那么好。
Gavin Wang
前Meta AI工程师,从事Llama 3后训练:
当时Llama3.1/3.2确实是有很多很好的进展,比如多模态是在这个阶段里面发布的,包括后面他们做Lightweight model(轻量化模型)1B/3B的。我觉得这时候产品化生态取得了很大进展,很多的社群都有支持,包括我有朋友在Llama Stack团队,他们就是专门支持整个Llama的生态在企业级或者说小企业级的落地。
Gavin Wang
前Meta AI工程师,从事Llama 3后训练:
当时的叙事是说,Meta是大厂里面唯一一个剩下开源的模型,而且还对整个开源生态很有贡献。当时我觉得很多人都会觉得,这不仅仅是在做一份工作,而是我们真的就是在支持整个AI的前沿的发展,你做的每一件事情都感觉非常有意义,我当时是非常自豪的感觉。我出去跟别人说,我是在做Llama 3的团队,一些创业公司的创始人他们都会说:非常感谢你的努力。感觉整个技术圈,尤其是AI创业圈,都在指望Llama。
Gavin Wang
前Meta AI工程师,从事Llama 3后训练:
整个Llama 1 ~ 3算是一个时代,大家很疯狂地在卷scaling law(缩放法则),当时整个行业里都在追随基础模型的能力的提升。大家在探索基础模型、大语言模型本身的能力的边界。但是Meta的领导层, 像扎克伯格和CPO Chris Cox,他们其实很早就意识到大语言模型的能力能够落地,能真正为社会产生价值,他们肯定是从产品力上去出发的。
所以说当时Llama 2和Llama 3的阶段,整个GenAI的核心目标是让研究成果真正产品化、工程化。也因此就是在最高管理层层面,包括副总裁、高级总监的高层,是由一些之前更多的是产品背景和工程背景的人来领导的。
陈茜
硅谷101联合创始人:
你在被拉去救火Llama 4之前,手上在研究什么?
田渊栋
前Meta基础AI研究(FAIR)团队研究总监:
我们这边在做一些关于推理的一些研究。主要是关于思维链,包括思维链的形态和训练的方式做了一些研究。o1是去年9月份出来的,其实我们在o1出来之前,就注意到非常长的思维链会对整个模型的scaling law(缩放法则)产生影响。
Gavin Wang
前Meta AI工程师,从事Llama 3后训练:
Llama 4规划的时候,就会感觉到这个地方可能领导层的方向有一些变化。我认为总体来说他们还是想要支持Meta本身重点去推的一些产品,就是Llama本身的生态,多模态肯定是其中的一个重点。但是DeepSeek在1月份的时候横空出世,它们的推理能力非常的强。
推理能力在当时也是讨论的其中一个方向,但是因为Meta本身的生态,它们更看重多模态,没有重点去做推理。但是当DeepSeek出现了以后,那时我实际上已经离开了Llama的团队,不过据说当时他们有在讨论说是不是要重新把推理的地方捡起来,但这个地方可能优先级上有一些冲突,加上时间也非常的有限,就导致大家加班加点地做了很多的尝试,非常得忙。我觉得DeepSeek的出现肯定是造成了公司里面资源还有优先级管理上的一些混乱。
还有一点,我觉得Llama 1~3整个模型的架构和组织的架构,是延续了一开始的设计。但是因为Llama 3的成功,大家就希望Llama 4能够更进一步,能够做一些更大的工程。那这个时候可能出现了一些问题,我的观察就是公司比较高层的,像副总裁、资深总监这个层面,他们很多人是比较传统的基础架构、计算机视觉背景,可能自然语言处理背景的都比较少。
所以可能他们技术层面对于AI原生技术或者是大语言模型这些东西就没有一个深度的理解和认识。真正懂行的,可能是下面具体做事的一些博士,尤其是我们非常骄傲的是,华人的博士都是技术非常扎实的。但是他们获得的话语权,或者说在公司内部的资源没有那么多。所以说可能不知什么缘故就造成一种外行管理内行的一些局面出现。
田渊栋
前Meta基础AI研究(FAIR)团队研究总监:
我觉得现在很大的一个教训就是,做这样的项目不能让不懂的人来做整个的领导者或者做整个的规划。如果有些东西出了问题的话,应该是大家说:ok,我们不能在这个时候发布,我们再往后拖。应该是采用一种,我拖到什么时候结束能够正常运作才发布的阶段。而不能说把deadline先定好,不然的话有很多事情是做不好的。
我觉得我们组里面当时很多人非常累,比如说像我是在加州,因为我有几个团队成员在东部时区,他们晚上12点给我打电话,他们那边已经3点钟了,还在干活,所以非常的辛苦。为什么他们那么辛苦呢?是因为deadline压得很紧。比如说我们的deadline就是要计划在某一天要发布,项目管理就需要从后往前倒退,然后看2月底或者3月初一定要做什么事情、3月底要做什么事情。
但如果你在做这些事情的时候,你发现这个模型这方面不行,或者说数据有什么问题,在这种情况下,我觉得有一个很大的问题就是,你怎么样能够让大家因为你这句话停下来。就比如说,我说这个数据有问题,不行,我这个数据不能用,我们得换一个数据。那这样的话就多出事了,我们得把整个事情往后延一个星期、两个星期。但这个事情能不能做到是一个很大的问题。如果在很强的deadline压力之下,最后结果就是这事情做不了,或者说大家没有办法去提出异议,那这样的话最后的质量就会变得很差。这是一个比较大的问题。
陈茜
硅谷101联合创始人:
为什么Meta会有那么强的压力在deadline上面呢?因为开源模型,其实它已经是第一了。当然,DeepSeek在年初的时候出来,大家都没有意料的到。但是为什么它有那么强的deadline说我一定要在这个时候把这个东西推出来?
田渊栋
前Meta基础AI研究(FAIR)团队研究总监:
应该说有个上面高层定下的deadline,但这个我就不方便说了,可能能你要去问一下相关的人,懂的都懂。
田渊栋
前Meta基础AI研究(FAIR)团队研究总监:
但实际情况其实是因为前沿模型的竞争太激烈了,所以基本上很难真的去用FAIR这边的一些文章。虽然有些文章是被用到了,但是我们在交流的过程中还是会存在一些问题。我当时就是在FAIR的时候,我有时候Ping(发信息给)GenAI的人,他们都不理我,这是什么情况?但是真的我去了GenAI之后我会觉得,确实我也没法理他们(FAIR研究员们)。
因为太忙了,比如说我半小时不看手机,可能就有20条、30条的消息要去看,有很多的人要找,有很多的事情要决定。所以我也能理解了,在GenAI这样的环境下,很难有比较长期的思考过程。
Tom Zhang
硅谷资深人才专家:
第一条就是把基础研究、TBD Lab和FAIR更集中化,就让它两个更紧密的去结合。所以这回裁掉的一些研究人员,邮件上也说,可能他们的项目没有那么高的影响力。你再做一些前沿的研究,但和我们现在没有关系,因为很多前沿研究是高度抽象的,是从数学的角度,从很多理论的角度,它其实和工程的离得比较远。
第二个就是把产品和模型更紧密地结合,和Alex Wang一起进来的人,有一个就是GitHub的原来CEO。等于扎克伯格同时引进了两个高端人才,一个是Alex Wang,统一来说就是管模型的;一个GitHub前CEO Nat Friedman,他是偏产品的,因为产品才能给这个模型更好的反馈,在用的过程中进行飞轮效应。
第三条是组建一个统一的核心基础设施(Infra)团队,就把管卡的数据中心团队更集中化。过去很可能是很散的,好几个领导都在,你要卡你得来申请。现在卡这个事也是统一来管理。所以这个邮件写得还是挺清楚的。
| 通信人家园 (https://www.txrjy.com/) | Powered by C114 |