通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  大元帅

注册:2007-12-102519
跳转到指定楼层
1#
发表于 2026-3-23 09:56:34 |只看该作者 |正序浏览

在刚闭幕的AI行业风向标——英伟达GTC 2026大会上,英伟达CEO黄仁勋首次提出“Token经济学”:推理已成为AI最核心的工作负载,Token则是新的大宗商品。

Token是大语言模型处理信息的基本单位,也是计费单元,可以粗略理解为AI处理或生成的文字片段,一个汉字大约对应1到2个Token。

过去两年,大模型竞争的核心叙事是模型能力:谁更聪明,谁在 ARC(推理基准)、SWE-Bench(软件工程基准)这类 benchmark(基准测试)上能拿更高分,谁就更接近 AGI(通用人工智能)。参数规模、推理深度、复杂任务完成率,构成了行业主要竞争指标。

但是2026年春节过后,Agent AI(智能体人工智能)的核心叙事是持续完成任务,包括写代码、调试、调用工具、读取文件、再迭代,Token消耗从人机对话升级为机器自循环。以OpenClaw(龙虾)为例,用户仅需下达目标,它即可自主拆解任务、调用模型/工具/接口完成全流程,一次任务甚至就要消耗数十万至百万级Token。

这意味着,Token正成为AI时代的“石油”。黄仁勋断言,数据中心已从文件存储设施演变为Token生产工厂,未来每家公司都将以“AI工厂效率”来衡量自身竞争力。

与此同时,一组来自面向AI应用开发者的全球大模型聚合路由平台——OpenRouter的数据,在海内外都引起了关注。3月16日,其发布的数据显示,中国大模型周调用量已连续两周超过美国大模型。

3月9日当周,全球模型Token调用量排名前十名中,公开明确的中国模型占四席,并包揽前三名,分别是MiniMax M2.5、阶跃星辰模型Step 3.5 Flash、DeepSeek V3.2,Kimi K2.5位列第九。中国模型Token周调用量约4.69万亿,较上周的4.194万亿环比上涨11.82%。相比之下,美国AI大模型周调用量为3.294万亿Token,环比下滑9.33%。

OpenRouter的用户主要由海外开发者构成。该平台整合了包括GPT-4、Claude等二十余种主流大语言模型,提供统一的API(应用程序编程接口)和交互界面。其核心功能包括多模型聚合、统一API调用、性能基准测试、智能路由优化及开发者工具支持,支持按需付费与部分模型免费试用。由于每天处理海量真实调用,其LLM(大语言模型)排行榜已成为开发者社区的重要参考。

在这场新的AI战役中,包括芯片厂商、大模型厂商、算力供应商在内的多位业内受访者,均给出一致看法:“Token确实已经开始出海。”

极致性价比

Token出海,与中国多采用开源大模型有关。

中国开源模型是推动全球模型开源的重要力量。开源模型开放代码与权重,可本地部署定制但技术门槛高;闭源模型仅开放调用接口,易用稳定但无法修改底层。

2025年12月5日,硅谷风险投资基金a16z和OpenRouter联合发布了《人工智能现状》报告,对近100万亿的Token调用数据分析发现:2024年末,中国开源模型占全球所有模型使用量的比例仅为1.2%,而到2025年年中,这一比例最高近30%。

“中国开源模型不仅质量出众,模型发布密集且迭代快速,其中阿里云的Qwen以及DeepSeek开源模型在持续推动全球大模型的技术竞争。”

报告指出,对话和编程是全球开源模型两个最主要的用途,中国开源模型使用量中,39%用于编程,33%用于对话。

据澎湃新闻报道,Kimi K2.5在2026年1月27日发布后不到一个月,近20天的累计收入已经超过了2025年全年总收入。增长的核心驱动力来自海外开发者和API调用,K2.5在OpenRouter平台的调用量持续位居前列,直接带动了B端收入的暴涨,海外收入首次超过国内。

对于开发者而言,性价比始终是其关注的重要指标。长江证券的研报显示,在输入价格上,MiniMax -M2.5和智谱GLM-5都是0.3美元/百万Token,而Anthropic的Claude Opus 4.6是5美元/百万Token,是前者的16.7倍。

输出端更夸张,MiniMax-M2.5 价格为1.1美元/百万Token,智谱GLM-5为2.55美元/百万Token,Claude Opus4.6 则为25美元/百万Token,分别是前两者的约22.7倍和9.8倍。2月底刚出的阿里Qwen3.5,直接把百万Token价格打到0.8元,相当于谷歌Gemini的1/18。

开发者/用户发送给大模型的提示词、问题、上下文等内容,是模型输入的Token;大模型生成并返回的回答、结果等内容,是模型输出的Token。后者因算力消耗更高,计费单价远高于输入端。

天数智芯副总裁宋煜告诉南方周末记者,电力和算力基础设施确实是Token出海的底座,但真正决定竞争力的,不只是低成本电力,还受到芯片与集群能力、模型能力以及开源生态影响力的共同作用。

天数智芯作为中国首家实现训练和推理通用GPU芯片量产的企业,被业界誉为“中国GPU四小龙”之一,刚刚于2026年1月登陆港交所。

宋煜进一步称,中国模型公司在开源上的持续投入,已经成为Token出海的重要推动因素——数千亿参数级大模型的开源,一方面显著降低了全球开发者和企业使用先进模型的门槛,另一方面也放大了对推理服务、适配部署和持续调用的需求,从而进一步增强了中国Token服务在全球市场上的推广和使用。

“大模型互飙”

不过,OpenRouter并不代表Token出海的全貌。

OpenRouter的主要用户是全球个人开发者、AI初创公司。开发者用哪个模型,往往自己说了算。在这个背景下,中国模型“便宜量又足”是绝对优势。

但海外的企业级市场更复杂。相较于个人开发者,企业级市场对数据跨境流转极为敏感,全球各国数据主权与隐私法规日趋严格(如欧盟GDPR、美国CCPA),安全与合规正在成为核心门槛。

董超供职于中国一家主流的大模型厂商,在他看来,OpenRouter本身是个很小的平台,并不是各大模型的主力渠道。对于大部分模型公司来说,OpenRouter的Token消耗量,占比其实很少。真正的流量大头是那些互联网巨头、大型的SaaS厂商。

这也是Token出海面临的主要挑战,即如何渗透企业级市场。“海外大一点的公司想要使用国产模型,会优先从亚马逊或者微软的云平台上使用推理服务商的版本,而不是用中国服务器的版本。”董超说,这也是为什么不少国产大模型企业选择在海外建设自己的算力中心或者租用海外的算力的原因。

“短期来看,市场热议的Token出海有营销的成分。”董超坦言,因为OpenRouter上消耗Token的数据可见且有排名,一些国产大模型厂商会在上面做营销,花钱补贴海外的开发者。

2025年10月27日,MiniMax发布并开源了其新一代文本大模型MiniMax-M2,并表示两周内开放全球API接口免费调用。

两个月后,小米发布并开源其自研大模型MiMo-V2-Flash,还宣布将原计划于2025年12月底截止的免费试用期将延长至2026年1月20日。

“几家大模型公司互飙起来,均推出不同程度的限时免费政策,都在争第一。”董超称,模型公司实际上没有赚到钱。

据招股书,从2022年至2025年上半年,3年半时间里,AI大模型智谱(02513.HK)累计收入6.85亿元,而累计亏损超过62亿元。另一家AI大模型企业MiniMax(00100.HK)情况类似,2022-2025年,该公司年度亏损分别为7370万美元、2.69亿美元、4.65亿美元及18.7亿美元,四年累计亏损约26.8亿美元。

“目前我们测算下来,Token定价基本上是贴着成本线进行的。”一位为多家国产模型提供算力的服务商向南方周末记者证实,低成本电力、模型能力是中国模型刷榜OpenRouter的重要原因,但与国内某些互联网大厂模型的低定价策略也不无关系,“他们在烧钱培养用户的消费习惯”。

大摩首席经济学家邢自强亦认为,Token出海肯定是有空间的,但不能忽视地缘政治与安全考量。

在OpenRouter上,除了官方的大模型外,还有大量为国产模型提供推理服务的供应商,他们亦会上线国产模型的优化版本。比如美国的DeepInfra、AtlasCloud以及来自中国的硅基流动等推理平台,主打专注于对芯片架构、算法框架的软件优化,旨在实现比模型原厂更高效的推理服务。

一位大模型推理服务商告诉南方周末记者,该公司目前在OpenRouter平台上线了DeepSeek、MiniMax等多款国产模型,为了应对数据合规问题,公司专门建立了国际站,算力由亚马逊等海外的云服务商提供。

据南方周末记者统计,上线OpenRouter的中国大模型中,第三方推理平台占据绝大多数。以DeepSeekV3.2为例,共有9家提供商,除总部位于中国的DeepSeek外,其他8家提供商总部均来自海外,其中美国厂商有7家。

这意味着,当海外用户(尤其是欧美用户)通过OpenRouter调用DeepSeekV3.2时,不少请求被路由到美国的服务器,由美国的GPU完成推理,通过消耗美国的电力产出Token。

有利于国产算力出海

巨大的Token消耗下,算力市场行情也水涨船高。

3月13日,腾讯云宣布对其智能体开发平台的部分模型计费价格进行调整,涨幅普遍超过400%。同时,GLM 5、MiniMax-2.5、Kimi2.5三个模型结束限时免费公测,转为正式商用服务并按量计费。

5天后,阿里云官网发布公告,因全球AI需求爆发,供应链涨价,阿里云AI算力,存储等产品最高涨价34%。其中,旗下芯片平头哥真武810E等算力卡产品上涨5%—34%,文件存储产品CPFS(智算版)上涨30%。

硅基流动创始人袁进辉向南方周末记者分析,以前的Token价格战主要原因是大模型推理需求还没有起来,算力过剩,大家就通过低价引流先把算力用起来。目前的情况是,推理需求暴涨,导致算力供给不足,用户都在高价抢Token产能,“市场开始转向更真实的供需定价”。

国海证券提到,OpenClaw的Token需求高速增长,中国模型的成本优势进一步显现,Token出海有望加速,长期有利于国产算力出海,模型、云计算、CPU、存储、AI芯片等环节有望受益。

“Token出海了,但国产算力目前暂时没有做到。”一位国内云厂商人士对南方周末记者说,英伟达CUDA生态已构建起从编译器、库函数到上层框架的完整栈,并积累了海量的优化算子、工具链和开发者经验。“高端算力集群和大模型的迭代路线几乎完全绑定在H100/H200等芯片的生态上。”

他举例,如果以DeepSeekV3.2为例,一台H200大概能产生44万Token/每分钟。

一位国产算力提供商告诉南方周末记者,英伟达H200芯片主要都被国内大厂拿走了,第三方算力服务商只能去抢英伟达中国特供版H20。他还称,云厂商的AI大模型竞赛争分夺秒,训练效果更好、不用额外适配的英伟达芯片是它们长期的第一选择,不过寒武纪、百度昆仑芯已经取得长足进展,但在制程、峰值性能、浮点精度、生态等方面仍需努力。

与此同时,中国的模型公司也开始主动转身,向国产算力靠近。

1月14日,一则来自全球AI圈的消息引发国内产业界和资本市场关注:由智谱与华为联合研发的多模态图像生成模型GLM-Image,一举登顶Hugging Face平台Trending榜第一。不同于以往多数AI模型依赖国外芯片训练,GLM-Image从数据预处理到大规模训练,全程跑在华为昇腾Atlas 800T A2芯片和昇思MindSpore框架上。

宋煜称,芯片厂商如果能与头部大模型公司更早、更深入合作,就能让模型厂商基于自身算法演进路线,提前提出对硬件的要求,从而让国产芯片更早支持关键特性,例如围绕更低精度计算下的精度保持能力做前瞻性设计和优化。

他进一步解释,这一切的前提是国产算力基座本身必须足够稳定、可靠、高效,拥有持续演进的生态和前置协同能力,不能让模型厂商为了迁就底层生态短板而修改训练流程、牺牲效率,甚至放慢迭代节奏。“归根结底,芯片要跟上模型演进,成为模型创新的加速器。”


电力重要性提升

业内普遍认为,单点技术的突破不足以赢得这场竞争,生态的协同,尤其是电力供应日渐成为影响全球AI产业格局的关键因素。

“对算力中心行业来说,算力和电力始终是高度耦合的关系。”博大数据算力事业部副总裁白旭告诉南方周末记者,目前算力服务中85%以上的成本是GPU为代表的设备成本,而电力成本差不多占15%。随着AI训练和推理需求快速增长,算力负载越来越高,电力已经从成本因素逐渐变成决定数据中心布局的重要变量。

宋煜也认为,随着大模型推理逐步走向常态化和规模化,前期资本开支会在长期运营中被逐步摊薄,而电力、制冷、运维等运营成本会越来越决定长期竞争力和定价能力。也正因如此,芯片降本的关键不只是降低功耗本身,还在于提升单位能耗下的有效产出,让更多电力真正转化为稳定、可持续的Token输出。

黄仁勋也在上述演讲中提到,每一座数据中心都受电力限制,一座1GW(吉瓦,一种电力计量单位)的数据中心永远不会变成2GW,这是电力和土地决定的。在固定功率下,谁消耗每瓦电力能产出的Token最多,谁的生产成本就最低。

不少受访者表示,美国模型目前虽然拥有顶尖的GPU,却受困于高昂的电价和居高不下的硬件建设成本。

全球能源互联网经济技术研究院研究员陈晨告诉南方周末记者,1990年代至2019年,美国的去工业化过程导致电力增长动力不足,电网扩容缓慢。近几年随着美国人工智能浪潮下数据中心大规模扩建以及部分制造业回流,又对电力系统稳定性造成冲击,“大量风光新能源、储能、数据中心等项目难以并网”。

据《经济参考报》3月16日报道,大规模建设人工智能数据中心除可能引发地区供电紧张风险外,如果数据中心突然大量脱离电网,所致电力需求骤降也将成为电网运行的新威胁。

2024年7月和2025年2月,在数据中心集中的美国弗吉尼亚州,各有约70家和40家数据中心因高压输电线故障而突然脱离电网,启动备用供电系统。这导致美国PJM联合电网公司不得不迅速应对,调低电网供电量,以避免发电厂等基础设施受损。

陈晨认为,目前美国电网扩容面临着变压器短缺、大规模输电项目缺乏统筹规划和审批程序漫长等方面的挑战,导致中西部的风能、太阳能难以高效输送到用电紧张的东、西海岸。

而中国过去几十年持续投入电力建设,建成了全球规模最大的电力系统和清洁能源供应体系,更拥有全球唯一掌握特高压核心技术、全套装备、核心元器件及系统集成的自主可控完整的电力产业链。

中国信息通信研究院数据显示,中国数据中心用电量正在快速增长。2019—2024年,中国数据中心年度用电量从824亿千瓦时增至1660亿千瓦时。到2030年,这个数字最高可能达到8200亿千瓦时——相当于近九个三峡电站全年发电量。



举报本楼

本帖有 2 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2026-3-23 13:59 , Processed in 0.313172 second(s), 16 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部