白皮书下载
中国移动核心网内生AI模型评测体系白皮书.pdf
(810.26 KB, 下载次数: 12)
白皮书解读
人工智能已成为引领科技革命与产业变革的核心引擎,中国移动积极落实“AI+行动计划”,在核心网领域构建了从标准、架构到技术与产业应用的完整智能化体系。当前,AI模型已深度内生于NWDAF、UPF等核心网网元,在网络状态精准预测、用户高精度画像、业务与质量实时感知等场景发挥关键作用:网络状态预测可实现PRB利用率、小区流量等指标的高精度负载与拥塞预测;用户画像融合多维度数据支撑个性化业务引导;业务与质量感知可精准识别业务类型并监测体验指标。为支撑模型运行,核心网在架构与业务流程上实现深度演进,NWDAF承担数据分析、模型推理等核心任务,UPF通过智算硬件升级实现用户面数据实时智能解析,形成端到端业务流程闭环。
随着核心网智能化应用的深入,更多复杂AI模型将被引入,建立科学、系统、可落地的评测体系成为推动核心网智能化从“可用”走向“可信”“可靠”的关键。本白皮书由中国移动通信研究院牵头,联合集团及多家省分公司、设备商共同编制,系统梳理了核心网内生AI模型的发展现状与评测需求,构建了科学完整的评测体系框架,结合典型案例验证了体系的实用性,为产业协同推进核心网智能化转型提供指引。
核心网内生AI模型与大模型的区别
核心网内生AI模型是部署于移动通信核心网内,利用网络运行中产生的各类数据作为输入完成对特定目标的推理动作的推理模型。与当前热点的通用大模型(如ChatGPT等)相比,核心网内生AI模型聚焦特定通信或计算场景,遵循严格的数据格式与规范,强依赖现网环境与专业数据。从模型评测方法看,其无法采用大模型评测的通用数据集与评测框架,需“一案一议”设计针对性设计评测方案,重点解决高质量评测数据集构建与符合真实架构流程的评测工具研发两大核心问题,本质是“专用智能”与“通用智能”的评价体系差异。
核心网内生AI模型评测体系
核心网内生AI模型评测体系的核心目标为“标准共建、能力可信、效率优化、生态协同”。构建统一评测框架形成行业标准,避免重复建设;通过多维度评测确保模型在复杂环境下稳定运行;建立自动化评测平台加快模型迭代,降低成本;推动产业协作构建开放共享生态,实现成果互认互通,为智能网络持续创新与高质量发展奠定基础。
体系设计遵循六大原则:场景驱动原则,确保评测结果与业务需求一致;多维度评估原则,覆盖技术性能、业务价值等全维度;可扩展性原则,适应未来技术与业务变化;实用性原则,避免复杂操作与过高资源消耗;自动化原则,提升评测效率与准确性;安全合规原则,符合相关标准与法规要求。
(一)四维评测指标体系
白皮书提出涵盖模型性能、业务价值、工程及运维、安全合规四个维度的全面评测指标体系,兼顾通用AI评价指标与核心网业务特性,其中模型性能指标为上线前必测的基准指标,其余三类为上线后后评估指标。
模型性能指标:评估算法性能与技术能力,含准确性、实时性、鲁棒性、泛化能力四类。准确性指标随任务类型差异,包括分类任务的准确率、F1-score等,回归任务的RMSE、MAE等;实时性指标含推理时延、吞吐量、资源利用率;鲁棒性评估不同条件下的性能稳定性与抗攻击能力;泛化能力衡量模型对未见过数据的适应能力。
业务价值指标:评估模型对核心网业务的实际贡献,含业务性能提升、用户体验改善、业务创新三类。业务性能提升聚焦呼叫建立成功率、资源利用率等指标优化;用户体验改善关联业务响应时间、用户满意度等;业务创新评估新业务部署周期、定制化能力等。
工程及运维指标:评估模型部署与运维特性,含资源效率、可解耦性、可维护性、可扩展性四类。资源效率衡量部署成本与ROI;可解耦性评估与现有系统的兼容性;可维护性关注模型监控、升级与故障处理难度;可扩展性保障模型适应未来业务增长与功能迭代。
安全合规指标:评估数据保护、安全防护与合规性,含数据安全、模型安全、隐私保护、合规性、安全审计五类。覆盖数据加密、对抗攻击防御、匿名化效果、3GPP标准合规、操作日志完整性等关键指标。
(二)评测实施体系构建
评测实施体系是从评测需求输入到落地评测的完整过程,核心包含评测环境、自动化评测工具链、高质量测试数据集三大主体。
评测环境分为实验室孪生环境与现网试点/灰度环境。实验室孪生环境通过全栈模拟周边网元、复现各类网络场景,提供可控可重复的测试条件,适用于压力测试、故障模拟等性能指标测试;现网试点/灰度环境在生产环境划分特定区域,分流部分生产流量,获取真实数据,适用于业务价值、工程运维等后评估指标测试,需严格控制风险。
自动化评测工具链需覆盖评测全流程,含数据工程工具(自动化拨测、数据预处理、标注合成等)、内场评测工具(测试用例生成、模型监控、报告生成等)、外场验证工具(用户体验探针、统一数据采集、A/B测试等)、运维与持续监控工具(指标阈值设置、告警推送、趋势分析等),可提高评测效率与准确性,减少人工干预。
高质量测试数据集是评测工作的核心。核心网原始数据含信令数据、流量数据、性能指标数据、配置数据、日志数据五类,当前主要采用前三者。数据集构建需经采集、处理、标注、质检等科学流程,遵循“真实反映应用场景、全面覆盖测试维度、严格控制数据质量”三大目标,从代表性、完整性、一致性等七个关键维度评估,通过数据质检校验清单验收后方可用于测试。
核心网内生AI模型评测应用场景
(一)用户体验感知模型场景
用户体验感知模型部署于UPF设备内部,旨在为UPF提供精准的用户体验感知能力,例如基于该模型可推理出游戏用户在对战时是否卡顿,时延是否可以支持用户流畅操作,从而在判断用户体验质差时为其建立专载进行业务保障。该模型输入数据为用户数据流,推理输出为用户的质差情况。考虑到不同业务流特征的差异性,现已针对短视频、游戏、开直播、看直播、视频点播、视频会议、即时通讯(视频)、云游戏等八大类业务设定其KQI指标,涉及卡顿时长、分辨率、时延、码率等指标。
体验感知数据集构造是一项系统工程。基于贴近现网的原则,数据采集过程中要覆盖应用各种应用场景,包括终端类型、信号覆盖等诸多因素,并且需要区分大类采集足够的样本数量。采集后的样本数据经过数据清洗、数据标注和质检,方可生成至数据集。数据标注的好坏,是影响模型推理准确性的关键。
样本数据的原样注入同样是影响评测结果的关键。原样注入要求评测工具严格按照数据的原始特征注入到被测设备模型中,包括报文序列、报文间隔时间等。
(二)融合时空信息的用户画像模型场景
该模型主要主要依托于从网络信令数据中提取的用户移动性相关数据,引入多模态数据建模和时空大模型技术,同时结合其他信令数据、App使用行为及用户套餐等多维信息进行融合分析。模型以基站接入、时间戳等信令特征作为输入,通过时域增强模型学习用户轨迹的时间模式,并借助空域增强模型挖掘群体空间相关性,实现用户交通环境识别、场所分类等,为特定时空场景下的实时精准运营提供核心支撑。
用户交通状态实时分析是该类模型的典型应用场景之一,其评测方法展示了真实历史数据采集+标签自标注的测试数据集构建模式。通过使用各类交通线路专用或临近基站的用户接入信令,模型需要在移动轨迹开始时迅速识别用户实时交通状态(铁路、公路、轨道等)。相应地,其评测工作可通过采集用户接入对应基站后的前段基站切换数据作为测试输入。该方案的核心能力在于通过自标注方法获取用户真实标签,即事后基于用户长时间完整轨迹,通过移动线路、速度分析,或使用聚类算法实现群体性移动用户挖掘,获取用户真实状态,从而实现检出准确性及检出时间等定量评估。
总结与展望
白皮书构建的核心网内生AI模型评测体系,为核心网内生AI模型提供了系统化评测方法,也为网络智能化建设提供了决策参考。该体系通过统一、可量化的评测闭环,有效支撑模型优化、方案验证和产业落地,是核心网内生AI模型引入和发展的关键基石。 展望未来,随着5G-A及6G网络演进,核心网内生AI模型将覆盖更广泛场景,通过多模态技术实现多场景协同建模,模型复杂性与多样性持续提升,对评测体系提出更高要求。未来评测体系需在标准化、开放化和智能化方面持续发展,结合可解释AI、仿真与合成数据等技术,构建全流程评测能力。这需要产业链各方协同参与,共同形成“标准统一、能力完备、生态开放”的产业格局,为通信产业高质量发展和数字社会建设注入动力。
审核:杨海俊 | 测试中心(中国移动技术能力评测中心) 作者:刘贺林 | 测试中心(中国移动技术能力评测中心)
|