查看: 2524|回复: 2

35 天，成了 AI 模型的斩杀线 [复制链接]

tayun

军衔等级：

大校

注册：2015-11-14 点赞数

17

电梯直达

1^# 大中小

发表于 2026-1-15 10:06:42 |只看该作者 |倒序浏览

上个月你刚花 20 美元订阅了 ChatGPT Plus，转头这个月朋友圈就被「Claude 秒杀一切」刷屏，再过一个月可能又换成「Gemini 吊打一切」。

看着每月的账单，你难免开始怀疑人生：这 AI 会员，开不完，真的开不完？

这并非你的错觉，知名大模型竞技场 LMArena.ai 分析了自 2023 年年中以来的模型排名榜单，撕开大模型行业最残酷的一面：

排名第一的模型平均只能保持约 35 天的领先地位，通常情况下会在 5 个月内跌出前五名，在 7 个月内跌出前十名。

而曾经一战封神的榜首模型 OpenAI o1 目前排在第 56 位，Claude 3 Opus 更是跌到了第 139 位。

虽然 LMArena.ai 的这份榜单本身可能存在注水空间，但这种剧烈洗牌依然反映了 AI 模型过气速度之快，35 天正在成为顶级 AI 模型的「斩杀线」。

亿级投流，换不来 AI 用户的「回头率」

过去两年，你一定有看到过互联网上流传的这张梗图。

去年年初还是 ChatGPT 独领风骚，随后 DeepSeek、Claude 轮番坐庄，如今 Gemini 又异军突起。无论 2025 还是 2026 年，影响用户选择模型最核心的因素依旧是性能至上。

用户的选择从来纯粹，哪款模型好用、顺手，便会坚定不移地投向其怀抱，不得不承认的是，现在的 AI 用户，从一开始就没有忠诚可言。

比如 Sora 2 刚发布时被吹捧为短视频的降维打击，5 天内下载量破百万，但 a16z 合伙人 Olivia Moore 抛出的数据却显示，用户的 30 天留存率仅 1%，60 天直接归零。

如果把视野转回国内，大模型战火叙事同样残酷：AI 应用月投流规模动辄千万甚至十亿级，但除了尝到初期的流量甜头，用户留存率同样惨不忍睹。

而这种「始乱终弃」的现象绕不开因 AI 热潮催生的「FOMO」心理——大量所谓的 AI 游客只是为了跟上潮流、探索新鲜工具，但在体验过后转身离开。

深究根源，多数 AI 产品至今未能搭建起留住用户的闭环。

在过去的 SaaS 行业，「因 X 而来，因 Y 而留」是奉为圭臬的增长逻辑。就像有人最初用 Canva 做社交海报，但后来却被品牌素材包、模板库和团队协作功能绑住，成为长期用户。亦或者很多人第一次点开微信视频号，就是因为朋友圈、群聊里的一次顺手转发。

内容本身未必惊艳，但它被包裹在熟人关系之中。你可以不关心视频讲了什么，但很难对谁转了这条、谁在下面留言视而不见。点赞除了给创作者，也是为了维持关系的连接。

但这套逻辑在多数 AI 产品身上彻底失灵。

最典型的就是 Sora 2，即便能生成真假难辨的视频，但若没有原生社区支撑用户分享、互动、收获反馈，它终究只是个孤立工具——没除了极少数专业人士，大多数普通用户往往缺乏长期使用的需求。

除此之外，重度用户的使用逻辑也在发生变化。

英伟达 CEO 黄仁勋就曾在公开场合分享自己的 AI 使用秘籍：从不依赖单一模型，而是将同一个问题同时抛给多个 AI，让它们互相参考、交叉验证，以此提升回答质量与可信度。

这背后的逻辑不难理解：当下没有哪个模型能赢家通吃，不同模型各有优势。时至今日，ChatGPT 已不再是 AI 唯一入口，用 Claude 写长文本、Gemini 写代码、多模型协作取长补短才是常态。

尤为关键的是，巨头们早已手握成熟的生态闭环，只需将 AI 能力无缝嵌入其中，便能坐享生态红利。

Google 手握一整套已经被验证过二十年的入口体系，能够将 Gemini 能够无缝嵌入 YouTube、Workspace 办公套件，更深度绑定 Chrome、地图等核心流量入口，同时开放 API 拉拢海量开发者。

这种润物细无声的渠道分发，能够让 Gemini 轻松收割海量的普通用户与企业客户，也让 ChatGPT 用户反复摇摆。

面对用户使用意图薄弱、迁移成本近乎为零的困境，OpenAI 为代表的初创厂商一方面不断加筑功能防线：绑定生态厂商合作，推出 AI Office、AI 浏览器、AI 群聊等产品。

用 Sam Altman 的话说，这是为了发挥 AI 最大生产力，一切都值得用 AI 重做一遍，但换个角度看，这也是入口焦虑下的被动选择。

另一方面，OpenAI 也在 C 端加码押注「个性化记忆」与情商——允许用户让模型跨会话记住写作风格、专业术语等偏好，还能手动编辑记忆库；针对心理咨询等场景优化语气，本质上就是希望通过个性化功能和「情感绑定」来抬高用户迁移门槛。

但这些煞费苦心的防御招式，短时间终究还是难以逆转用户流失的大趋势。当产品端的突破变得举步维艰，于是也有许多厂商将目光投向了更「省时省力」的赛道——在衡量行业性能地位的榜单上动起了歪脑筋。

「我可以随时换，我也应该随时换」

前文提到的 35 天斩杀线，核心是参考 LMArena 反映的行业趋势，但需要指出的是，即便是这份被视作相对权威的评测榜单，本身也暗藏不少猫腻。

Meta 此前被曝出的刷榜行为，直接扯下了这份权威榜单的遮羞布。

发布 Llama 4 前，Meta 私下测试了 27 个变体版本，却只将分数最高的」特供版「公之于众，靠着这套玩法，Llama 4 一度霸榜。但当面向公众的正式版发布后，排名瞬间从第 2 名暴跌至第 32 名，滤镜破碎一览无余。

榜单的评测机制本身也存在不少问题，其理论上是这么运作的：用户输入提示，比较两个 AI 回应，然后选出更好的一个。实际情况却是：随机网民匆匆扫一眼，用两秒钟点击他们感觉还不错的选项。

Surge AI 在《LMArena is a cancer on AI》一文中曾指出，竞技场中 52% 的对决判定存在错误，大众投票更偏爱回答冗长、排版华丽甚至带表情包的「显眼包」。

很多时候，AI 只要自信地胡说八道，就能轻松击败诚实却枯燥的对手。

当刷榜作弊成为 AI 行业的潜规则，用户对模型的信任也在不断被透支。再加上模型们隔三差五出现的「降智」更新，用户对「榜一大哥」的祛魅，显然也只是时间问题。

而开源与低价的崛起，则进一步冲击了行业格局。

微软基于内部数据的研究显示，DeepSeek R1 极大推动了全球大多数地区的 AI 普及，在白俄罗斯拿下 56% 的份额，古巴 49%、俄罗斯 43%，即便是埃塞俄比亚和津巴布韦，份额也分别达到 18% 和 17%。

图片来自金融时报

原因并不复杂，甚至可以说相当朴素：价格屠夫。

对于绝大多数人来说，免费模型已经覆盖了大多数日常需求，用户就会很自然地进入另一种心态：我可以随时换，我也应该随时换。对于开发者而言，即便 OpenAI 等巨头多次大幅降价，其每 Token 收费依旧遥遥领先于 DeepSeek。

此外，开发者还基于 Qwen、DeepSeek 等开源模型，针对教育、医疗等细分场景做轻量化微调，诞生了一批「小而美」的垂直模型。它们虽在通用榜单分数不高，但特定场景表现远超闭源巨头，进一步瓦解了头部模型的话语权。

在这样的背景下，那些卡在中间地带的 AI 玩家反而最为尴尬：既不够强，也不够便宜，却还寄希望于刷榜、讲故事维持存在感。在「35 天生死线」面前，他们几乎没有回旋空间。

等待他们的结局，便只有迟早被斩杀。

来源：36kr

本主题由 System 于 2026-2-14 11:00 撤销图章

1 举报本楼

本帖有 2 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2026-7-14 22:54 , Processed in 0.207658 second(s), 16 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册