通信人家园

标题: ChatGPT 三周年遭 DeepSeek 暴击,23 页技术报告藏着开源登顶的全部秘密  [查看完整版帖子] [打印本页]

时间:  2025-12-2 12:09
作者: ttxx     标题: ChatGPT 三周年遭 DeepSeek 暴击,23 页技术报告藏着开源登顶的全部秘密


ChatGPT 诞生三周年之际,DeepSeek 送上「庆生礼物」。

就在刚刚,DeepSeek 一口气发布两款模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。这两个模型不仅在推理能力上直逼 GPT-5 和 Gemini-3.0-Pro,更重要的是,它们解决了一个困扰开源模型很久的问题:

怎么让 AI 既会深度思考,又会熟练使用工具?



新模型省流版如下


两个模型的权重都已经在 HuggingFace 和 ModelScope 上开源,你可以下载到本地部署。

慢、笨、呆?DeepSeek V3.2 上新黑科技

过去几个月,AI 圈出现了一个明显的趋势:闭源模型越跑越快,开源模型却有点跟不上节奏了。DeepSeek 团队分析后发现,开源模型在处理复杂任务时有三个核心瓶颈:架构问题、资源分配以及智能体能力。

针对这三个问题,DeepSeek 这次拿出了三个大招。

如果你用过一些 AI 模型处理超长文档,可能会发现速度越来越慢,甚至直接卡死。这就是传统注意力机制的锅。

传统注意力机制的逻辑是:每个字都要和之前所有的字计算相关性。文档越长,计算量就越大。就像你在一个有 1000 人的微信群里找人聊天,每次说话前都要挨个确认这 1000 个人是不是你要找的那个,这显然是一件十分费劲的事情。

DeepSeek 这次引入的 DSA(稀疏注意力机制)换了个思路:不需要关注每一个字,只关注那些真正重要的部分。



它的核心是一个叫「闪电索引器」的东西。

这个索引器会快速给每个字打个分,然后只挑出分数最高的那些字来计算注意力。就像你在 1000 人的群里,先用搜索功能筛出名字里带「张」的,然后再从这 50 个人里找你要的那个张三,效率立马上去了。

更聪明的是,闪电索引器使用的计算资源很少,而且支持 FP8 精度计算 (一种低精度但高效的计算方式),所以它本身不会成为新的性能瓶颈。

实际效果呢?V3.2 支持 128K 上下文长度,相当于一本中篇小说的长度,但处理速度和效率都大幅提升。而且根据官方在各种场景下的测试,DSA 版本的表现完全不输传统注意力机制,有些场景甚至更好。

V3.2 是在上一版 V3.1-Terminus 的基础上,通过持续训练引入 DSA 的。整个过程分两个阶段,都用了和 V3.1-Terminus 扩展到 128K 时一模一样的数据分布,保证了模型能力的平滑过渡。



此外,光有好架构还不够,训练也得跟上。

开源模型和闭源模型之间的另一道鸿沟在于:开源模型在训练后期投入的计算资源太少了。就像盖房子,预算花完了,装修就随便搞搞,最后住进去发现到处是问题。

技术报告显示,DeepSeek 在后训练阶段投入的计算预算超过了预训练成本的 10%。但砸钱也是门技术活。DeepSeek 构建了一个「稳定且可扩展的强化学习训练框架」,这个框架有两个特点。

一是稳定。强化学习训练本身就不太稳定,容易出现训练崩溃、性能波动等问题。DeepSeek 的框架能在大规模计算下保持训练稳定,这本身就是技术突破。

二是可扩展。这个框架允许后训练阶段的计算预算大幅超过传统做法,从而释放出模型的高级能力。

具体训练流程分两步走。

第一步是「专家蒸馏」。他们在数学、编程、逻辑推理、智能体任务等六大专业领域,分别训练出专用的专家模型。每个专家模型都在大规模强化学习计算下训练完成,而且分别针对「思维模式」(长链式思考) 和「非思维模式」(直接回答) 生成训练数据。



专家模型训练好后,就用它们来生成最终模型的训练数据。实验结果显示,用这些专家蒸馏数据训练出的模型,性能只是略低于对应的专家模型,而且这点差距在后续的强化学习训练中可以被抹平。

第二步是「混合强化学习训练」。DeepSeek 继续使用 GRPO(Group Relative Policy Optimization) 作为主要训练算法,把推理任务、智能体任务和人类偏好对齐任务统一整合到一个强化学习阶段。

这种统一训练的好处是既能提升不同任务领域的性能,又能避免传统多阶段训练中常见的「灾难性遗忘」问题。你可以把它理解为:AI 在学新技能的同时,不会把旧技能忘掉。

在推理和智能体任务中,他们用基于规则的结果奖励、输出长度惩罚、语言一致性奖励来引导模型学习。而在通用任务中,则用生成式奖励模型,根据每个提示分别定义评价标准。

V3.2 就是在这种混合强化学习下,经过上千步训练得到的稳定版本。而 Speciale 版本则更激进,它只在推理任务数据上训练,降低了输出长度惩罚,还引入了 DeepSeekMath-V2 的数据集和奖励机制,进一步增强数学证明能力。

结果就是:V3.2 的推理能力直接追上了 GPT-5,而 Speciale 版本因为放开了思考长度限制,性能更是逼近 Gemini-3.0-Pro。

思考+工具调用:AI 学会「边想边做」了

以前的 DeepSeek 模型有个尴尬的问题:进入「思考模式」后,就不能调用搜索、代码执行等工具了。就像一个人陷入沉思后,手就不会动了。这显然不符合我们解决复杂问题的方式。

现实中我们遇到难题时,往往是边想边查资料,边分析边验证,思考和行动是交织在一起的。AI 也应该如此。

DeepSeek 团队发现,如果直接复刻 DeepSeek-R1 的策略 (收到第二轮消息后丢弃此前的推理内容),会严重降低 Token 使用效率。这种方法会迫使模型在每次调用工具时都要从头开始重复推理整个问题,造成资源浪费。



他们专门为工具调用场景设计了一套「思考上下文管理机制」。

核心逻辑是:只有在用户发出新消息时,历史推理内容才会被清除。如果只是追加了工具相关的信息 (比如工具输出结果),则保留此前的推理内容,让推理过程可以持续。

同时,当推理内容被移除时,工具调用历史和工具返回的结果仍会保留在上下文中,确保模型在后续推理中仍能基于已有信息进行判断。

这样一来,AI 就可以:先思考一会儿,调用工具 (比如搜索、运行代码),看到结果后继续思考,再调用工具,如此往复。而且历史推理内容会保留,不需要每次调工具后都从头重新思考。

官方给的例子很生动:规划一个复杂的三天旅行,要满足各种预算约束、评分要求、不重复原则。比如第二天,如果订了豪华酒店 (800 元以上),那午餐晚餐总费用不能超过 350 元,餐厅评分都要 4.0 分以上,下午景点门票要低于 120 元。如果是中高档酒店 (500 到 800 元),至少一家餐厅评分要达到 4.0 分,景点门票要低于 180 元。

这种任务需要 AI 反复查询酒店、餐厅、景点信息,同时进行逻辑推理和约束检查。V3.2 可以边搜索边思考,最终给出完美答案。



不过要注意一点:有些智能体框架 (比如 Roo Code 或 Terminus) 是通过用户消息来模拟工具交互的。这种架构由于其上下文管理方式,可能无法充分利用推理内容保留机制的优势。对于这类系统,官方建议优先使用「非思维模式」。

V3.2 的思考模式已经支持 Claude Code,可以在命令行工具中使用。但 Cline、RooCode 等使用非标准工具调用的组件还不太适配,使用时要注意。

在实现「思考+工具调用」的过程中,DeepSeek 还做了一个巧妙的设计叫「冷启动」。考虑到手头已有两类数据 (一种是带推理过程的非智能体数据,另一种是没有推理过程的智能体任务数据),他们通过精心设计提示词把两者结合起来。

他们认为,模型已经具备了较强的指令理解能力,只需通过明确的指令,就能让模型在推理过程中自然地整合工具的执行。这使得「工具使用」可以无缝融入到「推理过程」之中,实现冷启动阶段的能力融合。

大规模智能体任务:让 AI 自己训练自己

在提升大模型能力这件事上,DeepSeek 走了一条不太一样的路——不是人类教 AI,而是让 AI 自己训练自己。

他们搭建了一条大规模的智能体任务流水线,创造了超过 1800 个虚拟环境和 8 万多条任务。这些任务有个共同特点:难解答,但容易验证。什么意思?就是题目很复杂,但答案对不对,一查就知道。这样一来,AI 就可以无限制地刷题、改题、复盘,不断强化自己的推理能力。



在这条流水线上,不同智能体扮演着不同角色:有的负责从互联网挖掘知识、提出问题;有的负责生成各种答案;还有的负责验证答案是否正确。只有通过验证的数据,才会进入训练集。这让模型越训越聪明,而且不会学偏。

更硬核的是代码领域。DeepSeek 直接从 GitHub 上抓取真实的 Issue 和修复补丁,让智能体搭建测试环境、安装依赖、运行测试用例,确保修 bug 真的有效、没有引入新问题。经过这一轮又一轮的自动化淬火,模型在多种编程语言里获得了可实战的能力。

最后,是最令人惊叹的部分——通用智能体。它不仅能解题,还能自动生成任务、工具和验证逻辑。给它一个任务类型,比如旅行规划,它会自己搜集数据、生成工具、提升难度、迭代解法,直到形成完整的任务体系。最终,它创造出上千个环境和任务,真正实现了 AI 生成训练 AI 的世界。

一句话总结:DeepSeek 把训练过程从「人喂数据」变成了「AI 创造数据、验证数据、用数据变强」。这不仅提升了模型的逻辑能力,也让 AI 开始具备一种以前不存在的特征——自我进化。

测试结果有多炸裂?



在推理能力测试上,V3.2 在 MMLU-Pro、GPQA Diamond、LiveCodeBench 等多个基准测试中的表现可与 GPT-5 和 Kimi-k2-thinking 媲美。而 Speciale 版本在这些测试中的得分则接近甚至超过 Gemini-3.0-Pro。



在智能体能力测试上,V3.2 在开源模型中达到了最高水平,大幅缩小了与闭源模型的差距。在 τ-Bench 测试中,V3.2 让模型本身充当用户智能体,在航空类别得了 63.8 分,零售类别 81.1 分,电信类别 96.2 分。



对于 MCP 基准测试,他们使用函数调用格式。

测试过程中发现 V3.2 经常进行冗余的自我验证操作,导致生成的操作轨迹过长。这种行为在 MCP-Mark GitHub 和 Playwright 评估等任务中,容易使上下文长度超出 128K 的限制,从而影响最终性能表现。

不过通过引入上下文管理策略,可以进一步提升模型表现。

即便存在这个问题,V3.2 的整体表现仍显著优于当前所有开源模型。而且这些基准测试中使用的环境和工具集,并未出现在模型的强化学习训练阶段,说明 V3.2 具备将推理策略泛化到「领域外智能体任务」的能力。

Speciale 版本的表现更是惊人。它通过支持更多推理 Token,取得了超越 Gemini-3.0-Pro 的性能。在未进行任何专项训练的前提下,就在 2025 年 IOI、ICPC 世界总决赛拿到金牌水平的成绩。

在 ICPC 世界总决赛中,Speciale 排名第 2;在 IOI 中排名第 10。而且结合 DeepSeekMath-V2 的方法后,Speciale 在复杂数学证明任务中的表现也非常出色,在 2025 年 IMO 和 CMO 也达到金牌门槛。



官方评估的是 CMO 2025 的英文版本。IMO 2025 与 CMO 2025 的题目及模型推理代码已经在 GitHub 上开源。

不过 Speciale 的 Token 使用效率显著低于 Gemini-3.0-Pro。在训练官方版本 V3.2 时,他们引入了更严格的 Token 限制,以降低部署成本与响应延迟,在性能与效率之间找到最优平衡。

为验证「AI 训练 AI」到底有没有用,他们做了两组实验。

第一组从合成的智能体任务里随机抽了 50 个实例,让各种前沿模型去做题,结果 V3.2-Exp 只答对了 12%,闭源最强也只有 62%,这说明这些任务不是「拼字游戏」,是真难。

第二组实验更狠,他们把 V3.2 的基础模型放进去,只用合成任务做强化学习,不引入链式思考或其他训练数据。最后结果显示:基于合成数据的大规模强化学习显著提升了模型在泛化任务上的表现。



那么 DeepSeek V3.2 还有改进空间吗?

有的。

官方承认,V3.2 与顶级闭源模型 (比如 Gemini-3.0-Pro) 仍存在一定差距。

训练总浮点运算量更少,导致 V3.2 在世界知识覆盖广度方面仍略显不足。他们计划在未来版本中通过扩大预训练阶段的计算资源投入,来逐步弥补这个短板。

Token 效率也是一个挑战。和 Gemini-3.0-Pro 等模型相比,V3.2 往往需要更长的生成路径 (也就是更多的 Token) 才能达到相似的输出质量。未来的工作重点之一,是优化模型推理链中的「智能密度」,提升效率。

在解决复杂任务方面,V3.2 仍然不及最前沿模型,这也促使他们进一步优化底层基础模型与后训练方法。(所以这是不是在暗示 V4? )



但考虑到这是开源模型,V3.2 的表现已经相当炸裂了。

从 R1 到现在的 V3.2,DeepSeek 一直在证明一件事:开源模型不是闭源的廉价替代品,而是可以真正接近甚至超越闭源模型的存在。

这次 V3.2 的发布,不仅在推理能力上追平了 GPT-5,还实现了「思考+工具调用」的完美融合,同时在世界级竞赛中拿到金牌。

更重要的是,这一切都是开源的。

任何人都可以部署到自己的服务器上,研究它的架构,甚至基于它做二次开发。AI 的未来,可能真的属于开源。

技术报告已发布,感兴趣的读者可以在 DeepSeek 官网或 HuggingFace 查看完整论文:



来源:36kr

时间:  2025-12-2 15:04
作者: zzandss


时间:  2025-12-2 19:14
作者: 不吹不黑

哦,遭遇暴力了?




通信人家园 (https://www.txrjy.com/) Powered by C114