从大模型叙事到“小模型时代”：2025年中国产业AI求解“真落地” [复制链接]

see122

军衔等级：

上校

电梯直达

1^# 大中小

发表于 2025-9-4 10:09:15 |只看该作者 |倒序浏览

小模型迅速蹿红背后，并非因为比大模型更先进，而是因为Agent作为AI落地的主要形态，正好需要小模型这种“刚刚好的智能”。

2025年2月，深圳福田区，部署70名“AI数智员工”，承担了240个政务场景中的文书起草、政策解读、招商辅助等任务。系统上线后，公文格式修正准确率超过95%，审核时间缩短90%，民情分拨效率从70%提升至95%。

支撑这70名AI数智员工的，是671B的DeepSeekR1。

DeepSeek以专家混合技术，根据任务自动激活部分网络，只运行需要的部分，从而显著降低推理资源占用，说白了就是用更少的算力解决了更复杂的问题。

严格意义上来说，DeepSeek不算是小模型，但它的出现，让人们开始思考大语言模型的“大”真的有必要吗。

这，成为小模型叙事的起点。后面的几个月里，一些新的变化开始出现。

“2025年初，我们尝试接入云端大模型，性能虽然强，但调用延迟、成本与数据隐私问题都让人头疼。后来改用某大模型厂商4B模型，只用了几小时就部署成功，响应秒级，隐私上也有保障。”某SaaS厂商负责人说道。

也是在2025年初，某家智能家居创业团队在开发一款可以脱网的语音设备时，曾苦恼于大语言模型既占空间又拖性能，这时，参数轻量的0.6B、1.7B、4B版本立刻引起他们关注。当他们把这款模型部署在家用路由器的8GB内存上时，发现其不需要高端GPU，设备即可本地完成自然语言理解与指令执行，无需联网，既节省延迟，也保障隐私。

这种“刚刚好”的智能，逐渐成为一些企业的心头好。

据MarketsandMarkets研究预测，2025年全球小语言模型市场规模将达9.3亿美元，2032年有望增至54.5亿，年复合增长率高达28.7%。Gartner的报告指出，已有68%的企业部署过SLM，超过45%的企业在部署后实现了成本优化与准确率双提升。

与市场需求所对应的，是服务商侧的动作，“小体量、高性能”正在成为厂商角力的新主战场。

据不完全统计，过去三年，国内厂商“≤10B参数”小模型的发布占比一路从2023年的约23%提升到2025年56%以上，已成为大模型版图里增长最快的细分赛道。

在这一连串变化背后，一些问题浮出水面：从大模型到小模型，AI 落地经历了怎样的转变？小模型具体应用在哪些场景？企业又是如何将其真正落地的？

一

Agent落地，

需要“刚刚好”的智能配套

据不完全统计数据显示，2024全年，智能体构建平台相关共有570个中标项目，372个项目公开金额，总金额达23.52亿元。而2025上半年，智能体构建平台相关中标项目数量已达371个，是去年同期的3.5倍，甚至接近去年全年总量的三分之二。

如果说2023年是大模型的狂飙元年，那么2024年，就是Agent被推到舞台中央的一年。当下则是Agent的爆发之年。

它们被寄望于接管企业流程中的重复性任务，例如自动生成周报、客服问答、文档检索、财务分析。对外，它们是客户看得见的智能接口。对内，它们是提升效率的关键工具。

但很快，一个矛盾浮现出来。

一份题为《生成式AI鸿沟：2025年AI在商业中现状》的报告显示：95%的受访企业称，在生成式AI投资中未获得任何实际回报，仅5%获得了转型回报。

很明显，Agent落地效果与其爆发之势，并不对等。这让业内开始思考，到底是哪里出现了问题。

“主流的AI代理系统普遍采用大型语言模型（LLM）与企业需求并不匹配。”在英伟达与佐治亚理工学院研究人员联合发布《Small Language Models are the Future of Agentic AI》论文中，这一观点被提出。

一个事实是，在理想化的演示场景里，GPT-4可以一口气写出一份营销方案，也能跨多个步骤完成复杂推理。但企业真正的落地需求往往更朴素。比如客服Agent只需回答我的账单在哪儿、怎么退货；文档Agent更多是做摘要、整理重点；财务Agent要做的，是把报销单里的关键信息提取出来。

这些任务的共同点是流程清晰、目标确定、重复性强。它们并不需要一个能写诗、能讲故事的大脑，而需要一个记得住流程、干活稳的助手。

于是问题来了，如果用大模型去驱动这些Agent，效果可能是“杀鸡用牛刀”。大模型虽然强大，却未必是Agent最合适的引擎。

根据一家互联网大厂的测试，GPT-4驱动的客服Agent，一天10万次调用，API费用接近40万元人民币，一个月就是上千万。而换成7B左右的小模型，成本下降了90%以上。比如阿里发布的Qwen2.5-Coder-7B，在代码生成场景里，比上一代大模型更稳定，且推理成本下降了70%以上。

此外大模型一次推理往往需要2-3秒，甚至更久。但在金融交易或客服场景里，2秒的延迟就可能带来投诉或风险。相比之下，小模型可以在500毫秒内返回结果。就像腾讯HunyuanLite-6B在多轮工具调用场景下成功率达92%，平均响应时间不到大模型的一半。

很多Agent需要处理企业的敏感数据，比如用户身份信息、医疗记录、财务数据。大模型多数依赖云端调用，数据必须上传到外部服务器。百度推出的ERNIELite-3B，就可以直接集成到政务知识问答场景中，本地化部署后避免了数据外泄。

所以，无论是从成本、速度还是数据隐私安全方面来看，推动Agent落地方面，小模型都更为“合算”。

从《Small Language Models are the Future of Agentic AI》研究来看，这种趋势已经在大量开源Agent项目中得到了验证。数据显示，在MetaGPT、Open Operato、Cradler等案例中，高达40%-70%的调用，其实只需要SLM就可以顺利完成。

大模型像是超级大脑，适合解决开放性、复杂性的问题；但Agent更多是执行型角色，它们要的是稳定、快速、可控的小脑。

于是，小模型在2024年迅速蹿红。它们的火，并非因为比大模型更先进，而是因为Agent作为AI落地的主要形态，正好需要小模型这种“刚刚好的智能”。

这，才是小模型崛起的底层逻辑。

二

“小模型≠取代大模型”

那么，小模型的落地究竟怎么样呢？

其实，小模型的特性，让其在一些场景里显现出足够的“性价比”。不过，即使如此，也没有人断言“小模型能完全取代大模型”。

目前来看，小模型落地的典型场景，都是“流程清晰、重复性强、对隐私和成本敏感”的业务。

例如客服与文档分类等标准化流程任务。美国基贷服务商Mr.Cooper和TDBank等企业，通过中型甚至小型模型，对客服通话内容进行分类、摘要或预测用户需求。这样既节省成本，又提升效率。

还有金融/法律等高合规要求领域，McKinsey报告指出，SLM在法律、金融、医疗等行业因专用领域训练、更高解释性，更受青睐。这些行业的Agent需要精确、合规，不适合依赖模糊的通用泛化能力。

此外还有边缘计算与实时应用，在智能制造、IoT、手机App等环境，设备资源有限，但要求响应即时。像NVIDIA在工厂端部署的小模型，推理延迟低、带宽消耗少；在手机端，如SlimLM系列在GalaxyS24上部署文档摘要、问答，运行流畅又省成本。

总的来说，对于预算敏感、合规要求高、边缘部署需求强、有一定技术团队的企业而言，这不失为最优选择。

值得注意的是，如果想把小模型用得和大模型一样好，并不简单，且小模型并不适用于所有场景和企业。

首先从模型本身来看，小模型的泛化能力远不如大模型，遇到长尾问题更容易答非所问。要补齐能力，需要做蒸馏、RAG、工具调用，但这对工程化要求高。

其次在数据层，小模型高度依赖高质量样本。例如金融行业尝试训练客服小模型，发现原始语料几百万条，但清洗后可用的不到10%，可能会导致模型效果不稳定。

还有系统集成层，小模型需要和知识库、API、流程系统对接，拼装起来才算一个完整Agent。很多企业在这一环掉链子，比如检索模块准确率不高，导致小模型回答跑偏。

更大的难题在于，从大模型转向小模型的沉没成本。

一组数据显示，2024年LLMAPI服务市场规模约56亿美元，但同期用于LLM托管的云基础设施投资激增至570亿美元，是市场规模的10倍。这种投资不仅是服务器、GPU集群硬件，还包括配套工具链、团队能力，一旦转向SLM，这些前期投入的沉没成本会成为企业的顾虑，导致即便SLM更经济，也不愿轻易调整现有架构，根本换不动。

总结来看，小模型的核心价值不是替代，而是补位。它解决的是性价比和合规可控问题，而不是全面超越大模型。小模型落地的门槛在企业工程化能力。能否做好数据清洗、系统集成、模型协作，决定小模型到底能不能跑得稳。

产业转向也不会一蹴而就。巨头和企业在大模型上的沉没成本，意味着小模型的普及不会是颠覆，而是渐进地与大模型形成混合架构。

三

中国产业AI，

进入“大模型+小模型”时代

对于企业而言，究竟如何转型？

在具身智能领域，机器人往往有一个“大脑”和一个“小脑”。大脑做规划，小脑执行动作。今天企业部署AIAgent，也逐渐走向类似的架构。

一个类似案例发生在国某家TOP3的保险公司内部的理赔中心，公司自研的一款3B级模型，其经过细致微调，被精准地训练在OCR字段提取、行业术语分类、以及跨系统的字段匹配三大任务上。这套“小而专”的系统，让日常的理赔处理趋近于零人工干预。

不过，在一些更复杂的场景中，比如识别异常票据、预警潜在欺诈行为等高风险环节，则通过调用大模型的API来提升判断的准确性和灵活性。

这样的“小模型+大模型”的协同模式，正在成为越来越多企业选择AI落地时的标准答案。其不仅提高了稳定性，也让企业得以控制核心流程在本地运行，避免过度依赖API与云端。

那么，对于企业而言，具体应该怎么部署？多大规模才是“刚刚好”？这则需要“因人而异”。

当下来看，1B-3B模型主要部署在移动端、边缘设备、嵌入式终端，用于文档总结、OCR、现场问询。例如石化行业的设备检修系统，用2.5B模型实现语音识别+常规故障排查。

7B-9B模型是中大型企业私有化部署的主力。金融、电信、医疗等行业普遍选择7B模型进行定制微调，集成在CRM、ERP、知识库问答等核心系统中。字节跳动、阿里在内部就有多个7B模型挂载在本地GPU或混合云架构中。

30B+模型仅用于特定、复杂的场景。比如战略报告撰写、法律判决建议、跨业务理解等需要跨知识推理的任务。部署场景受限于成本与工程复杂性。

目前，这场“小模型基础设施战”已经悄然打响。

可以看到的是，厂商们逐渐开始连推理框架、量化压缩、微调流程都一并打包给企业。

例如，阿里Qwen-Agent提供文档问答、结构化填表、财报解析的模块化插件，企业按需即插即用；腾讯混元Lite+私有部署SaaS中台，让小模型调优门槛大幅降低，一些中型B端企业已实现无需MLOps团队即可部署；百度ERNIELite政务套件，针对本地合规需求优化模型权限与日志审计功能。

海外厂商也动作频频，微软Phi-3发布时，不仅提供模型，还提供完整推理工具和端到端调试流程；英伟达的TensorRT-LLM+NIM服务，提供模型压缩、LoRA微调、部署封装一条龙服务，客户只需选择场景即可配置；Hugging Face Transformers Agents项目，直接把SLM变成微服务化的“任务组件”，让小模型成为模块化智能的原子单元。

更重要的是，开源社区也在主动推动标准化和行业化适配。DeepSeek开源的医疗问答小模型在不少私立医院试点测试；MiniCPM在教育领域内测中已集成至作业点评系统；中文RAG框架Langboat和LaWGPT专注构建政法场景的基础小模型生态。

在这些推动下，小模型不再是“降配版大模型”，而是具有完整生态、能独立跑业务流程的AI基础设施。

写在最后：

1900年左右，直流电网让城市第一次有了路灯；而真正点亮全国工厂的，却是十多年后随处可接的交流电。今天，小模型之于AI的意义，大抵类似于那条“能插在墙上的”电线，标志着工业化的可复制时刻。

当智能不再是一块高悬云端的黑盒，而是可以嵌到机器、嵌到表单里的芯片、脚本和服务，AI才算真正进入产业底层。

来源：36kr

本主题由版主或管理员于 2025-9-4 10:11 审核通过

0 举报本楼

本帖有 1 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2025-12-5 01:19 , Processed in 0.195640 second(s), 16 queries , Gzip On.

Discuz Licensed

回顶部

		自动登录	找回密码
密码			注册