Andrej Karpathy:我大概花了一个多月的时间搭建了这个代码库。我认为现在人们与代码的交互方式主要分为三类:完全拒绝大语言模型、使用模型中的自动完成功能辅助编写(我现在的阶段),以及氛围编程。我会在特定环境下使用它们。但这些都是你可用的工具,你必须了解它们擅长什么、不擅长什么,以及何时使用它们。
Andrej Karpathy:人类不会使用强化学习。强化学习比我想象得要糟糕得多,当然其他的方法更糟。在强化学习中,它几乎假设你得出正确答案的每一个小细节都是正确的,但这并非事实。你可能在找到正确答案之前,一直在走错路。你做的每一个错误,只要你最终得到了正确的答案,都会被加权为“继续这样做”。这很糟糕,它就是噪音。
Andrej Karpathy:的确,我们在这方面遗漏了一些关键维度。举个例子,就说读书吧。目前大型语言模型的“读书”只是被动地预测下一个词,并从中汲取知识。但这并非人类的学习方式——书籍对我们而言,更像是一组激发思考、讨论与内化的“提示词”。人类通过这种主动加工来真正掌握知识,而AI完全缺乏这一机制。我期望未来能让模型在预训练中融入对材料的深度反思与消化环节,但这仍是待解的研究课题。
Andrej Karpathy:这是一个有趣的想法。我认为当你在脑海中生成事物并加以处理时,你是在用自己的样本进行训练,用合成数据进行训练。如果你这样做太久,就会偏离轨道,最终崩溃。生活中你总是需要寻找熵。与他人交谈是熵的重要来源,诸如此类。也许大脑也建立了一些内部机制来增加这一过程中的熵。这是一个有趣的想法。
Andrej Karpathy:我几乎想拒绝“如何衡量AGI进展”这个问题,因为AI只是计算的延伸。我坚持OpenAI最初的AGI定义:一个能完成任何具有经济价值、性能达到或超过人类水平的系统。人们在探讨进展时把实体工作(可能占经济总量超80%?)排除在外,这与最初的定义相比,是一个相当大的让步。即便只拿下剩下的“知识工作”市场,那也是一个价值数万亿美元的庞大市场。