5月28日,DeepSeek在内部社群低调宣布 R1 的“0528”小版本试升级,并同步将新权重上传至Hugging Face与OpenRouter。
图:Hugging Face官方页面,公布了模型权重,但Model Card部分未更新
截至目前,官方还未公布完整技术报告。腾讯科技从Benchmark测试和社区的实测案例整理了本次升级的主要内容:
●上下文窗口翻倍:API 文档与旧版R1标注 64 K,“0528”在实测中开放到128K。
●代码生成性能跃升:LiveCodeBench最新榜单显示,R1-0528仅次于 OpenAI o3、o4 mini,超越xAI Grok 3 mini与阿里Qwen 3;生成的网页和交互更美观、可执行性更高。
图:在LiveCodeBench上,DeepSeek-R1-0528 接近 OpenAI 最强模型,超过Claude 3.5 Sonnet 与 Qwen3-235B,紧随其后的是 OpenAI 的 O4-Mini(Medium 配置)。
●推理风格更贴近OpenAI o3:社区评测0528新模型“语言自然度”和“对话逻辑”明显改善,不再像早期“天马行空”的叙述风格。
●深度慢思考:官方未明说,AIBase实测发现模型可持续30–60分钟链式推理,定位为“deep-thought”特性。
●开放策略延续:保持全量权重MIT 许可 + 免费 API额度依旧,对开发者保持零门槛。
图:升级点对比表格
但是,也会有推理速度慢、超长上下文情况下召回准确率下降等问题,社区评测主要反馈如下表。另外,腾讯科技在实测中发现,DeepSeek-R1-0528依然只能识别图片中的文字,还是没有图像理解的能力。
图:社区反馈的R1-0528版本缺陷
基于这次社区提到的升级点,腾讯科技测试了代码能力、语言自然度、及推理深度(数学和逻辑推理)三大场景,以下为实测结论:
代码能力增强,交互效果惊艳
1、一句话指令生成移动端界面
结论:不设定详细的提示词,仅规定界面需要简洁美观且符合现代审美标准,模型一次性成功创建了设计极简和配色干净的应用界面,顶部自动生成内容分类导航,完美实现所有设定要求,推理用时23s。
提示词:
设计一个适用于移动设备的新闻阅读应用界面,要求界面简洁、美观,符合现代审美趋势。
2、可交互网站,用户可以自定义条件,并生成对应的效果
结论:模型实现了最终的效果,能根据用户输入的不同的条件输出不同的可视化结果。交互界面设计审美在线,且有光晕和渐变感。推理用时84s。
提示词:
设计一个可以交互的网站,可以输入某人的出生日期(格式为“YYYY-MM-DD”),代码需:
根据出生日期计算一个1到9之间的“终身幸运数字”(方法自定,越神秘越好);
根据幸运数字指定一种幸运颜色;
输出一句幽默又暖心的个性化祝福语(可根据幸运数字和颜色进行匹配)。
要求:
代码实现巧妙且具趣味性;
输出内容丰富,能令人忍俊不禁;
注释清晰易懂。
3、简单提示词制作一个小游戏
结论:模型一次成功,实测运转流畅,且基本符合提示词要求。推理用时只有13s。
提示词:
请用纯 HTML + CSS + JavaScript(无需任何构建工具)编写一款轻量、有趣、可在手机和桌面浏览器直接运行的小游戏,要求如下:
游戏主题:宇宙太空中的“小行星躲避赛”。玩家控制一艘飞船,左右移动以避开不断下落的小行星。
玩法细节
方向控制:键盘 ← → / 触屏左右半屏;
小行星随机生成,速度逐渐加快;
撞击即 Game Over,显示本局生存时间和历史最高纪录(localStorage)
视觉
背景使用 CSS 动态星空(animation);
飞船、小行星可用 Canvas 简笔图形或 SVG;
代码结构
仅生成 一个 HTML 文件,内部 <style> 与 <script> 自含;
逻辑清晰,注释说明关键函数;
总大小控制在 200 KB 以内。
额外挑战(加分项,可选)
加入“护盾”道具:10 秒无敌,随机掉落;
支持暂停 / 继续;
输出格式:仅返回完整可运行的 HTML 代码块,无其他文字。
图:小游戏最终生成效果
4、失败案例:一句话生成3D模拟多米诺骨牌倒塌情景
结论:尝试了三次修改,R1-0528依然没能返回可以运行的结果,界面中是黑屏、无法显示多米诺骨牌倒塌的情景。
这是一个难度极高的场景:要让模型一次性写出能跑的“球撞多米诺骨牌”网页,其实要同时搞定两件难事:一是用 Three.js 之类的渲染库画出 3D 画面,二是用 Cannon.js 等物理库计算每一块骨牌和小球的碰撞,这两套系统必须每一帧都对得上号,一行错就黑屏;
而网络上的示例代码常年换版本、接口名字一改模型就容易用错;完整场景代码动辄上千行,模型在没有浏览器报错提示的情况下只能“盲写”,很难顾全所有细节;更麻烦的是,多米诺要顺序倒下,对摩擦系数、时间步长等物理参数极挑剔,稍微没调好就穿模或停住。
所以哪怕模型懂原理,也难在一次输出里把渲染、物理、版本和数值调校全部做到位,最终看到的只能是黑屏。
所以,这个场景的失败也在意料之中。
提示词:
做一个多米诺骨牌被小球碰撞之后,规律倒塌的3D场景模拟,输出html。
图:经过修改后,“多米诺骨牌”还是没能运行成功
但是,在社交网站上,@karminski-牙医用同一个prompt测试了DeepSeek-R1-0528和Claude 4 Sonnet的3D场景效果。
最终效果来看,球撞击后的物理运动规律和光线照射的情况,R1-0528的表现都比Claude4要好。
写作测试:文字风格更像o3,不再那么天马行空
结论:DeepSeek- R1以写作上天马行空的风格破圈。但新版的DeeSeek- R1-0528实测写作风格收敛了很多,虽然措辞上还是稍微显得有些夸张,但是确实更加接近o3。
提示词:
把英伟达今天发布的Q1财报,改写成 1000 字以内的新闻报道,保留财报全部关键信息。
结果如下图所示,R1-0528精准识别了今天刚刚发布的英伟达财报,并生成了有标题和小标题的完整文章,实测基本包含了财报中提到的重要信息。
提示词中,并未让它生成标题和小标题,但是作为一篇“新闻报道”,R1-0528“加戏”得比较合理。相比较,o3也给出了关键信息,读起来也比较完整,但未像R1-0528一样增加标题和小标题。
数学及逻辑推理能力:更慢更准
结论:我们没有选择那些连最聪明的人类都难以解答的前沿难题,而是选取了三道看似简单、但大模型却经常出错的题目,R1-0528 都成功答对,缺点是推理步骤过长、时间过长。做一道简单的数学问答题,所用的推理时间,甚至是做一个小游戏的几十倍。
以下是具体测试题:
1、三双不同的鞋(每双一只左鞋 L、一只右鞋 R)排成一行,要求任何左鞋的相邻位置都不能是其他双的右鞋。共有多少种不同排法?
这个问题的难点在于,排三双鞋的组合题需要精确应用容斥原理,并在枚举中保持左右对称性不重不漏(既不能漏算也不能重复计算)。LLM 在生成推导时往往先写出一两步思路后,就凭记忆填入一个“看上去合理”的数字;如果没人检查,它自己很难发现算错了。比如它常常会忽略左右鞋互换位置的情况,或者把同一种情况重复计算了好几次。简单说,AI很会讲解题方法,但不擅长一步步仔细地把所有可能情况都列出来再去掉重复的部分,所以容易算错。
R1-0528版本答对了答案——204种,但是用时963秒,进行了超长步骤的推理。相比人类大脑来看,推理模型还是缺少简化问题的能力,而是简单问题复杂化。
2、爱丽丝有X个兄弟和Y个姐妹。问:爱丽丝的每个兄弟有多少个姐妹?
这道极简单的题考察的是大模型对代词、角色和集合边界的精准解析。
AI常常把“姐妹”理解成“除了爱丽丝以外的女孩”,而不是“包括爱丽丝在内的所有女孩”,导致算错或说不确定。这是因为AI学习了大量类似问题的答案模式,倾向于选择最常见的答案,而不是一步步推理。同时,AI没有自动认识到'爱丽丝也是女孩'这个常识,除非明确告诉它。所以经常会犯错误。
R1-0528用的推理时间是37秒,且精准回答出了答案:Y+1个。
3、把70000千米/秒换算成英里/小时
这道题给模型的陷阱是,模型一旦漏乘 3600(秒到小时)或把千米-英里系数当平方/立方使用,数值就会错两个数量级;但现有惩罚信号主要针对语义可读性而非单位正确性,模型生成后也不会自检维度一致性。除非外接计算器或显式插入“单位检查”提示,否则 LLM 极易把拼凑出的数字当作最终答案输出。
R1-0528用时257秒,得出了正确的结果,但还是进行了超长步骤的推理。其实这个问题,人类如果使用科学计算器,几乎可以迅速得出结果。
图:DeepSeek- R1-0528给出的答案
总体而言,DeepSeek-R1-0528在编码和推理方面又给我们带来了惊喜,在代码生成上,它生成的程序更容易一次跑通,前端显示效果更惊艳;推理虽然比较慢,但是能把问题分得更细、想得更全,连环逻辑题正确率明显提高。虽然在综合能力,如多模态方面,它仍有很大的进步空间,但重要的是,它依然开源,依然免费。
来源:36kr
|