通信人家园

标题: DeepSeek该卸下扫地僧的枷锁了 [查看完整版帖子] [打印本页]

时间: 2026-4-13 09:45

作者: coffee198375 标题: DeepSeek该卸下扫地僧的枷锁了

我每次翻《天龙八部》，翻到少林寺藏经阁那一段，都要停下来。

萧远山、萧峰父子对上慕容博、慕容复父子，鸠摩智再从旁搅局，三十年的血海深仇搅在一处，眼看就要分出生死。就在这当口，一个枯瘦的扫地僧走了出来。

萧峰的降龙十八掌打在他身上，他虽受内伤吐血，却以浑厚内力生生受之；他举手投足间让慕容博陷入「假死」复又救活，这种生死由心的境界，令在场一众顶尖高手莫不震慑失语。

这一刻，谁强谁弱，答案不言而喻。

AI 圈最近几年，流行把 DeepSeek（深度求索）比作这位老僧。在所有人眼里，AI 赛道的格局早已注定，海外有御三家，国内有大厂和彼时风头正盛的 AI 六小虎，轮不到旁人来置喙。

结果一家做量化交易出身的中国公司，悄没声儿地走出来，用一套从天而降的招法，在各项核心评测上与这帮人正面交手，打得有来有回。

只是，扫地僧出场，是《天龙八部》行将收尾的时刻。他的使命是终结纷争、化解戾气，然后全书走向尾声。可大模型的故事，没有尾声，也没有终章，只有下一回，还有下下一回。

把 DeepSeek 比作扫地僧，是对它过去的最高赞誉，但如果这三个字正在慢慢变成困住它的枷锁，我倒觉得，赞誉和催命符，有时候只在一念之间。

扫地僧是怎么练成的

金庸写扫地僧，从来不正面写他的功夫。他写的是别人的反应，萧峰愣了，慕容复愣了，旁观的人也愣了。高手的境界，要从旁人失语的瞬间才能传递出来。

DeepSeek 的故事，也暗合这个逻辑。

作为杭州的一家对冲基金，外人提到幻方量化，第一反应是期货、是算法交易、是数学天才们盯着屏幕上跳动的数字。这和 AI 大模型，八竿子打不着，却悄悄把一批工程师和研究员聚在一起做大模型。

2023 年 11 月，他们发布首个开源代码大模型 DeepSeek Coder，后续拿出了一个 67B 的语言模型。在官方给出的多项评测中，67B 超过了 LLaMA2 70B，67B Chat 在部分中文和开放式评测中优于 GPT 3.5。只是，圈内少数几个消息灵通的人注意到了，大多数人没注意到。扫地僧还在扫地，少林寺的人都在忙着练少林长拳。

让其开始崭露头角，是 2024 年 5 月 7 日发布的 V2。V2 用的是 MoE（混合专家）架构，总参数 2360 亿，但每次推理实际激活的只有 210 亿。与此同时，V2 首次采用了 MLA（多头潜在注意力）机制，大幅压缩了推理时的显存占用。

两相叠加，让模型在同等效果下，跑得更快，花得更少。用金庸的话来说，这叫以柔克刚，以精妙的内功路数，弥补了真气总量上的不足。

但砸出最大水花的，是定价。V2 的 API 定价，每百万 token 输入 1 元，输出 2 元。GPT-4 Turbo 当时是它的七十倍，Meta 的 Llama3 70B 是它的七倍。一块钱，一百万个 token，大约相当于一本《三国演义》的字数。

这个价格摆出来，让整个国内大模型市场为之色变。当月，字节、阿里、百度、腾讯、讯飞、智谱，一家接一家跳出来宣布降价，最高降幅 97%，部分轻量级模型直接免费开放。

一场持续了大半年的价格战，就这么被 DeepSeek 的一句定价点燃了。那时候，业内给 DeepSeek 送了个外号，价格屠夫。

美国的半导体咨询公司 SemiAnalysis 在那段时间写了一篇分析，说这家公司有可能成为 OpenAI 的对手，也有可能碾压其他开源大模型。当时读到这句话的人，大概有一半觉得是危言耸听。一年多以后回头看，没有人再觉得是危言耸听了。

2024 年末的 V3 和 2025 年初的 R1，则是连续出手的两招，把对手打得目瞪口呆。DeepSeek 用极低的投入，打出了旗鼓相当的效果。

更让人震惊的是参与人数，139 名工程师和研究人员完成了这个项目，而 OpenAI 同期有 1200 名研究人员，Anthropic 有 500 名。Meta 超级智能实验室负责人亚历山大·王后来说了一句被广泛流传的话，当美国人休息时，他们在工作，而且以更便宜、更快、更强的产品追上我们。

紧接着便是 R1，主打深度推理，数学、代码、逻辑，在相当多的测试维度上与 OpenAI o1 不落下风，训练方法用的是 GRPO 强化学习，靠让模型自己想清楚来提升推理能力。

最要紧的一步是开源。

R1 的开源，被广泛解读为一种慷慨。模型权重、技术论文、训练细节全部公开，全球开发者共享成果。这套叙事里，DeepSeek 是那个敞开藏经阁大门的人，路不拾遗，人人可进。

武功秘籍直接摆桌上，谁想学谁来拿的这一手，也打破了少数几家巨头对前沿模型的垄断，让全球数以万计的中小开发者有了和顶尖模型掰手腕的资格。

金庸写扫地僧，主要抓住几样东西，出身边缘、多年隐匿、一鸣惊人、技法精绝、胸怀坦荡。DeepSeek V2 的价格屠刀、V3 的成本奇迹、R1 的开源普惠，也让人们在 DeepSeek 身上，真真切切地看见了那个老僧的影子。

枷锁，以及枷锁之后

但武侠小说是会结束的，AI 赛道不会。

每次我写 DeepSeek 的文章，底下的评论区都像藏经阁又打了一场架。有人说它安安静静做产品，不收费、不立人设，能用就用，这才是正道。有人说它连国产其他巨头都未必打得过，已经无法搅局。

有人替它抱不平，有人觉得它早就该被淘汰。更有人说，「我们一直以来都没把 DeepSeek 当作优等生，而是当作扫地僧，真心希望它能如我们所愿」，这句话说得又期待，又带着一丝说不清楚的悲凉。

意见如此撕裂，本身就说明了一件事。DeepSeek 所受到的关注，早已超出了一家普通 AI 公司应有的体量。捧它的人把它捧上神坛，骂它的人把它踩进泥里，没有几家公司能在舆论场里同时承受这两种极端。

这篇文章大概也逃不过同样的命运，有人会说这是黑稿，有人会说这是 PR 稿，落个两头不讨好。但这无所谓，舆论从来都是这样，藏经阁里打架，不管谁赢，总有人不服。

说回正题，扫地僧出场那一幕，是《天龙八部》收尾的信号。他出手，纷争平息，故事逐渐走向终章。这个叙事结构，似乎天然就带着一种大结局的气息，英雄横空出世，一招定乾坤，从此江湖太平。

根据《创智记》援引知情人士消息称，按照创始人梁文锋在内部透露的时间，DeepSeek V4 将于四月下旬正式发布。

爽文里的主角，每一章都要有突破，读者翻到下一页，期待的永远是更大的惊喜。

V3 和 R1 用四两拨千斤的逻辑征服了世界，大众于是开始把它当成 DeepSeek 的固定输出，每一次出手都必须让硅谷巨头血溅千里，都必须让英伟达的股价抖一抖。V4 也应当如此。

可在这等待一年多的时间里，外界等得有些躁动，各路声音都出来了，说一拖再拖，是不是黔驴技穷了，扫地僧要不行了？说这话的人认为 DeepSeek 理应每次出手都是奇迹，一旦慢了半拍，便是江郎才尽。

慢，自然有慢的原因。

3 月 29 日，DeepSeek 的服务器崩了将近十三个小时，创下网页端和 App 平台上线以来最长中断纪录。连续的服务事故暴露了 DeepSeek 在运维监控、应急预案和灾备机制上的明显短板，也给整个 AI 行业敲响警钟。

当然，综合各家报道来看，V4 一再推迟的原因，还藏在芯片层面。

V3 和 R1 的成功，一定程度上建立在成熟的英伟达 CUDA 生态上，DeepSeek 的工程师们在工具完备、文档详尽、社区活跃的环境里，把算法效率一点一点榨到了极限，每一步都踩得踏实。

V4 要做的事，是把这套功夫移植到国产 AI 芯片上。工具链还在快速迭代，底层接口和 CUDA 差异巨大，分布式训练框架几乎需要从头重构。

DeepSeek 交出的答卷，如果是在受限条件下做出来的，这让它的每一分成绩，都带着额外的含金量。哪怕梁文锋愿意为这件事多拖几个月，也是一笔非常划算的决策。

至于 V4 本身，《创智记》报道称，技术重心据悉落在了 LTM（长期记忆）能力的突破上，同时将原生多模态从底层融入架构，文字和视觉在预训练阶段就融合在一起。

另一个值得关注的变化，是梁文锋本人的注意力在悄悄转移。尽管在过去的一年里，包括 R1 的核心作者郭达雅在内的部分 DeepSeek 核心骨干陆续离职，不过根据《晚点 LatePost》的观察，DeepSeek 的人才基本盘依然稳固，并未出现大规模的人才流失现象。

进入 2025 年下半年，梁文锋也愈发看重技术的商业落地与产品化进程，积极招募负责 Agent 领域的策略产品经理。与此同时，他正在为公司启动估值，给员工的期权一个明确的锚点，让团队对未来有更清晰的预期。

综合上述种种动向不难得出一个结论：曾经心无旁骛盯着 AGI 的 DeepSeek 也得开始面对一家成熟科技公司必须面对的那些现实：商业闭环、生态建设、可持续的收入来源。

扫地僧可以几十年不问江湖俗事，守着藏经阁一扫到底，一家公司，没有这个选项。

《笑傲江湖》里的令狐冲凭着独孤九剑可以破尽天下武功，但当他真正坐镇恒山派，每天迎来送往，护佑门人，一招鲜远远不够，他需要的是内政、是人心、是香火代代相传的根基。奇招，解决不了日常的柴米油盐。

因此，我们应该主动帮 DeepSeek 卸下「扫地僧」这个名号。这三个字是对过去的最高褒奖，却是对未来的过重负担。即便 V4 发布时没有断崖式的领先，只是一款 LTM 扎实、多模态原生融合、各项指标均衡的水桶机。

从产业的角度看，这依然是巨大的成功，成功在于它或许将证明 DeepSeek 有能力从一个创造奇迹的挑战者，变成一个稳定交付的基础设施提供者。

有意思的是，这件事或许本来就是双向的。《晚点 LatePost》此前的报道里，DeepSeek 对外的沟通姿态明显比以往克制，既没有大张旗鼓地预热，也没有放出足以吊足胃口的技术信号。

这种低调，很难说是无意为之。

他们比任何人都清楚，扫地僧这三个字背后悬着什么。每一次出手若不能再掀翻整张牌桌，舆论的落差就会被无限放大。这是一种预期管理，也是一种自我解绑——他们同样不想再背着这个包袱走下去。

而话说回来，当舆论都在一窝蜂盯着 DeepSeek，却少有人往旁边多看一眼。

这片江湖里，国内每一家 AI 都在拼命练功，押注多模态、Agent 生态、算力布局，也都在各自的赛道上走出了自己的路数。

DeepSeek 固然是那个最让人心跳加速的名字，但把眼光只锁死在它一家身上，未免看窄了这个时代。真正让天龙八部成为天龙八部的，是那一整代人各有来路，各有绝学，彼此激荡，才撑起了那个波澜壮阔的时代。

扫地僧的传说，止于藏经阁那一战，但这片江湖的故事，还长着呢。

时间: 2026-4-13 09:46

作者: coffee198375

又来一次价格屠夫？。。。

时间: 2026-4-13 10:06

作者: 客家人

大模型迭代很快的
2025年deepseek炒的那么火，到头来没几个人用，现在豆包用的人多，断代的领先

时间: 2026-4-13 10:29

作者: coffee198375

客家人发表于 2026-4-13 10:06
大模型迭代很快的
2025年deepseek炒的那么火，到头来没几个人用，现在豆包用的人多，断代的领先

客总认知也就适合用豆包了，DS这种工业品不适合您。。。。

时间: 2026-4-13 10:59

作者: 看看夕阳

客家人发表于 2026-4-13 10:06
大模型迭代很快的
2025年deepseek炒的那么火，到头来没几个人用，现在豆包用的人多，断代的领先

就不理解你为什么要贬低ds，ds和豆包应用场景差别很大，难道只是最近它和950联调？字节，阿里，腾讯，滴滴等都计划会采购部分950，难道你都要调整屁股？客总，心魔不要太严重了，否则会很难过。

时间: 2026-4-13 11:14

作者: txrjyjac

多关注一些，毕竟是百花争艳的年代。

时间: 2026-4-13 11:31

作者: just10089

coffee198375 发表于 2026-04-13 10:29:38 客总认知也就适合用豆包了，DS这种工业品不适合您。。。。

垃圾哥，百度不是更好用吗？那些智*问答，还不如自己去查呢！

时间: 2026-4-13 11:35

作者: Desla的马甲

看看夕阳发表于 2026-4-13 10:59
就不理解你为什么要贬低ds，ds和豆包应用场景差别很大，难道只是最近它和950联调？字节，阿里，腾讯，滴滴 ...

所以，大家应该能理解为什么永远都会有HAN间了。
有些是因为金钱诱惑，有些是因为仇恨了国家某个人或公司，在仇恨下降低了智商和理想判断力，通过支持外国势利打击自己仇恨的对象，然后言行就变成了HAN间。

时间: 2026-4-13 12:23

作者: 客家人

Desla的马甲发表于 2026-4-13 11:35
所以，大家应该能理解为什么永远都会有HAN间了。
有些是因为金钱诱惑，有些是因为仇恨了国家某个人或公司 ...

不要啥都是han奸，我们不反对自主可控，反对的是打这个旗号割韭菜行为，自己东西不咋地，还舆论引导不让用好的。aiguo饭吃的好，就像司马南那样，满嘴aiguo，背后全是利益和算计

时间: 2026-4-13 12:29

作者: 锦绣江山

客家人发表于 2026-4-13 10:06
大模型迭代很快的
2025年deepseek炒的那么火，到头来没几个人用，现在豆包用的人多，断代的领先

中专生不知道大模型是啥意思？

时间: 2026-4-13 12:35

作者: 10219459

锦绣江山发表于 2026-4-13 12:29
中专生不知道大模型是啥意思？

不准确的数据，DS月活1.5亿。还有哪个蹭百度的，可知百度也是接入DS的。

时间: 2026-4-13 13:07

作者: 看看夕阳

客家人发表于 2026-4-13 12:23
不要啥都是han奸，我们不反对自主可控，反对的是打这个旗号割韭菜行为，自己东西不咋地，还舆论引导不 ...

那你为什么抹黑ds呢，ds很有技术难度，开放api，在大学，研究机构，企业研发中用得不少。不是针对文案，对话，个人消费的东东。你问他客总是谁他肯定不知道，你让它写一段代码测试客家人是否是人，它会写。

时间: 2026-4-13 15:10

作者: lmla2070

just10089 发表于 2026-4-13 11:31
垃圾哥，百度不是更好用吗？那些智*问答，还不如自己去查呢！

时间: 2026-4-13 15:10

作者: lmla2070

看看夕阳发表于 2026-4-13 13:07
那你为什么抹黑ds呢，ds很有技术难度，开放api，在大学，研究机构，企业研发中用得不少。不是针对文案，对 ...

时间: 2026-4-13 15:48

作者: 客家人

锦绣江山发表于 2026-4-13 12:29
中专生不知道大模型是啥意思？

嗯，中专生能当董事长,不知道是否能把握局面？要是成了汉献帝咋办，谁是野心家？

时间: 2026-4-13 16:21

作者: 一日囚

客家人发表于 2026-4-13 10:06
大模型迭代很快的
2025年deepseek炒的那么火，到头来没几个人用，现在豆包用的人多，断代的领先

Deepseek不是炒的火，是非常火。
非常多的行业的大型企业的科技总，25年初春节假期结束第一天开会就是讨论Deepseek，甚至过年期间就在热烈讨论了。各行各业，几乎所有你叫的出名字的大型企业，如果部署了大模型，基本上都部署了Deepseek的开源大模型。今年过年放假前，不少AI这条线的打工人心里都在默默的期盼，Deepseek V4不要在春节前发布，因为大家都想好好过个年。大型企业着急部署Deepseek V4，发布后一天都不能等不想等，就像当年有些爆款手机上市，消费者彻夜排队买一样，从这些细节你应该就知道Deepseek有多少人在用，江湖地位多重要了。
你不知道这些是有客观原因，学历低可能只能在网上了解下AI但并没有参与这个产业，仇恨又蒙蔽了你的双眼，再加上智商感人，不怪你。

时间: 2026-4-13 16:45

作者: Desla的马甲

客家人发表于 2026-4-13 12:23
不要啥都是han奸，我们不反对自主可控，反对的是打这个旗号割韭菜行为，自己东西不咋地，还舆论引导不 ...

客总，你觉得，以你目前在坛子里的专一菊黑形象，谁会相信你只是在反对割韭菜？我觉得肯定有一个：just，这个浆糊脑袋会相信。
然后其他人呢？客总，你给列举列举？
另外啊，客总，自证清白不只是这么自评两句就可以的。那不是沙人范也很容易自辩无辜了。

时间: 2026-4-13 17:16

作者: 客家人

Desla的马甲发表于 2026-4-13 16:45
客总，你觉得，以你目前在坛子里的专一菊黑形象，谁会相信你只是在反对割韭菜？我觉得肯定有一个：just， ...

过去走的弯路还少么？
MOTO芯片打磨擦掉LOGO....
还有打着自主可控的旗号骗经费的
希望大家干实事，不要打折aiguo的旗号割韭菜

时间: 2026-4-13 22:40

作者: coffee198375

看看夕阳发表于 2026-4-13 10:59
就不理解你为什么要贬低ds，ds和豆包应用场景差别很大，难道只是最近它和950联调？字节，阿里，腾讯，滴滴 ...

客总只会用豆包来美颜。。。。

时间: 2026-4-13 22:41

作者: coffee198375

客家人发表于 2026-4-13 17:16
过去走的弯路还少么？
MOTO芯片打磨擦掉LOGO....
还有打着自主可控的旗号骗经费的

论坛最不干实事的就是客总了吧。。。。

时间: 2026-4-13 22:42

作者: coffee198375

客家人发表于 2026-4-13 15:48
嗯，中专生能当董事长,不知道是否能把握局面？要是成了汉献帝咋办，谁是野心家？

客总怎么就不能控制大厂不买950？。。。

时间: 2026-4-13 22:44

作者: coffee198375

客家人发表于 2026-4-13 12:23
不要啥都是han奸，我们不反对自主可控，反对的是打这个旗号割韭菜行为，自己东西不咋地，还舆论引导不 ...

别人都是傻子，只有客总清醒着，客总反对的是自己就是韭菜。。。。

时间: 2026-4-13 22:44

作者: coffee198375

just10089 发表于 2026-4-13 11:31
垃圾哥，百度不是更好用吗？那些智*问答，还不如自己去查呢！

您都这么垃圾了还用百度噢。。。。

时间: 2026-4-13 22:45

作者: coffee198375

锦绣江山发表于 2026-4-13 12:29
中专生不知道大模型是啥意思？

中专生只知道豆包可以美颜。。。。

时间: 2026-4-13 22:54

作者: 客家人

coffee198375 发表于 2026-4-13 22:45
中专生只知道豆包可以美颜。。。。

嗯，中专生当汉献帝咋办？谁是野心家曹操

通信人家园 (https://www.txrjy.com/)