通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  少将

注册:2015-11-2658
跳转到指定楼层
1#
发表于 2023-12-20 10:35:32 |只看该作者 |倒序浏览
李虓、李建坤等 中移智库

摘要

本文介绍了人工智能从深度学习模型发展到预训练大模型的过程中模型训练和应用范式发展的各个阶段,以及最近在预训练大模型技术方面取得的突破式进展。在此基础上以运营商有线宽带网络业务为例讨论了大模型技术的应用场景,最后指出了大模型作为人工智能发展的最前沿在具有广泛应用前景的同时,在数据、算力、安全等多个方面面临的挑战。

01
引言

当前,国内网络连接普及率已近饱和,用户日均上网时长超过4小时,通信行业竞争从增量转向存量,用户规模驱动的增长模式难以为继。同时,用户对于宽带业务的需求也在发生改变,他们不再只关注连接速度,而是更关注业务体验的整体质量。因此,如何积极保障用户的体验质量(QoE,Quality of Experience)已成为当前行业热点。

为保证网络服务的质量,运维团队需要大量人力处理数量巨大、类型复杂的各种网络运维数据,另一方面,网络故障通常是随机和复杂的,单纯依靠人力很难在问题发生之前进行预测,也难以准确和及时地解决问题。由于人为错误和难以预测的网络问题,网络服务的质量可能会出现波动,影响用户体验。

从20世纪50年代诞生以来,人工智能(AI)技术经过了半个多世纪的发展,已经在许多领域取得了丰硕的成果。“机器学习”作为人工智能技术中发展最为成熟的领域,其应用可以帮助人们基于特定标准从大量数据中自动识别和学习各种模式和规则。利用机器学习技术,运维团队可以预见即将发生的问题,并在问题真正发生之前进行干预,避免可能的服务中断。通过不断的学习和优化,AI可以自行调整网络参数以实现最佳的性能。

随着网络结构越来越复杂,运维数据量进一步增长,设备行为模式和故障特征也相应地复杂化,传统的机器学习方法面临着数据处理速度慢、无法处理大规模数据、无法发现隐含模式等问题,限制了智能运维的效率和能力。而此时适逢大模型时代到来。

02
大模型时代到来

21世纪初至今以深度学习和大数据驱动为特征的第三次人工智能浪潮蓬勃发展。2022年参数规模达到千亿的GhatGPT预训练大模型发布以来,人工智能进入了迈向通用人工智能的全新时代。

传统的深度学习针对每个特定场景、每种训练任务都需要分别收集和整理训练数据,进行数据特征的提取和表示,在各自独立的数据集上训练模型,最终产出多个领域相关的模型。这种范式的问题是模型各自为政,重复大量训练,造成资源浪费。而深度神经网络由于参数较多,当没有足够的训练数据时还容易出现过拟合,导致泛化能力较差。

针对传统的深度学习的问题,研究人员提出预训练模型(PTM)的概念,通过将丰富的知识隐式编码到巨大的参数中,并对具体的任务进行微调,可以使下游的各种任务受益。现在人工智能社区的共识是采用PTM作为下游任务的骨干,而不是从头开始学习模型。

自监督学习是一种通过自动生成标签来训练模型的方法,无需手动标注数据。它利用数据本身的内在结构或特征来生成标签,从而构建训练集。自监督学习的发展使得对大规模无监督数据进行预训练成为可能。在这之前,计算机视觉领域由于存在标注完备的数据集而在预训练模型方面率先取得了成功,而自然语言处理领域由于缺少带标注的大语料库而进展受限。正是自监督预训练技术的出现,使得预训练模型的发展在自然语言处理领域取得了巨大进步。

GPT模型即是一种采用了自监督预训练方法的自然语言处理(NLP)模型。从 GPT-1 到GPT-4 ,随着参数规模不断扩大,智能化程度也不断提升,GPT-4的参数规模已经达到了万亿级别。除了能够更好地理解上下文并区分细微差别,从而产生更准确和连贯的响应,GPT-4在多模态能力上也取得了极大进展,GPT-4 可以为相对复杂的图片添加字幕,甚至进行解释[1]。

03
大模型应用探索

具体到大模型在运营商的应用场景,下文以中国移动有线宽带网络业务为例说明。为了提升用户体验、提高业务与网络质量,目前中国移动已经在宽带上网、IPTV等多个业务场景,开展了利用人工智能的网络异常智能诊断技术研究,训练基于宽带业务和网络关键指标的异常检测模型,并在现网部署原型系统开展试点应用。

有线宽带业务涉及终端、接入网元设备、骨干及传输网元设备、业务平台等多个终端、网元、平台服务器等,其中任意段、网元/设备出现问题,可能都会对用户使用有线宽带业务质量产生影响,因此,为了实现宽带业务整体的智能诊断,就需要在端到端全链路的各个关键节点、针对不同的业务训练、部署各自独立的智能检测模型。

然而随着业务种类及业务涉及地市的增加,训练、部署、维护各个模型的成本也随之不断增长,同时用于模型训练的数据相互隔离不能通用,也限制了模型性能的进一步提高,而这正是大模型可以发挥作用的应用场景。

大模型通常基于海量数据集进行训练,具有生产高质量文本的能力,可以理解并模拟复杂的语言模式和上下文信息,因此可以将大模型用于智能客服问答系统,用于解答用户的问题,提供信息,解决问题。大模型生成的文本具有良好的连贯性、语法规范并且适应上下文的内容,相对于传统AI客服,用户体验有着巨大的优势。

大模型由于拥有更多的参数和深度网络结构,可以从海量数据中抽象出高阶模式,接纳更丰富的语义空间。这使得大模型不单可以充分利用大规模训练数据,在对大数据源进行深度解析时更为有效,预测准确率也相对较高。例如,针对有线宽带业务涉及全国多省市的多种业务,数据量巨大导致传统模型无法统一处理的问题,可以通过大模型预训练技术解决。只要经过合理的数据特征选择与对齐,就可以基于全国宽带业务数据训练一个基础大模型,之后在不同省市、不同业务场景中只需要使用小样本数据对基础大模型进行微调,就可以实现在保证模型性能的同时节省训练成本,提高预测准确率。

大型模型的多模态处理能力意味着它能够灵活理解和处理多种类型的数据输入,包括但不限于文本、图像、声音等。在应用环境中,基于学习到的多模态理解能力,大模型能结合各种类型的信息源,从而生成更准确的结果。例如,在有线宽带智能运维中,大模型可以处理和分析各种日志文件(文本模态)和系统指标(数值模态),以便早期发现并预测潜在的系统问题。通过分析历史的故障数据(包括故障描述文本、相关日志、系统指标等),大模型可以预测相似环境下可能出现的问题,并建议或执行自动修复。大模型还可以通过图像生成和解读技术,将复杂的系统状态和分析结果可视化,帮助运维人员更直观地理解问题和决策。

04
总结与展望

大模型技术在2023年取得了爆发式增长,预训练大模型、云计算和开源的融合使得越来多的人开始使用生成式人工智能,虽然2023年初这一比例不到5%,但Gartner预测到 2026 年,超过80%的企业将使用生成式AI的API或模型,或在生产环境中部署支持生成式AI的应用。

大模型作为人工智能发展的最前沿在具有广泛应用前景的同时,也面临着数据、算力、安全等多方面严重制约应用发展的挑战。

数据方面,大模型应用需要大量的数据输入才能完成模型训练,但是一方面不同的业务数据掌握在不同的企业中,企业间数据难以共享,另一方面,设备的物理限制以及网络连接的不稳定性,也影响了数据的有效收集和传输,进而影响了应用的性能。

算力方面,大模型的训练通常需要大量的算力资源,如高性能的处理器(CPU 或 GPU),同时大模型和相应的训练数据集需要大量的存储空间,这些都给硬件设备提出了高要求。另外电力消耗也是一个问题:大模型的训练过程中,由于需要长时间运行高性能的计算设备,因此会消耗大量的电力增加训练的成本。

安全方面,大模型在训练过程中可能会接触大量敏感数据,因此隐私泄露就成为一大安全挑战。另一方面,恶意用户可能会试图通过操纵输入数据来影响大模型的输出结果,从而导致误导或破坏性行为。

面对这些挑战,除了研发对应技术、还要综合考虑法律和政策等多个方面的解决方案。

面对已经到来的人工智能新时代,在通用人工智能的新一波浪潮中,各类新应用场景层不断涌现,特别是对于运营商,在数字孪生、智能运维(AIOps)、全要素体系化运营等方面都需要大模型为个人用户和干行百业的全场景智能需求提供真正无所不及的智能服务。以中国移动为代表的运营商需要充分发挥通用人工智能技术的变革性作用,激发内生赋能模式,重塑业务流程、形态、服务模式、价值呈现。充分融通和激发全产业算力、知识、 数据价值,打造以通用大模型为基座,共建行业大模型的合作新模式。

举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-6-15 00:46 , Processed in 0.544796 second(s), 17 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部