李也:一是 “AI for 可观测”。过去,我们需要手动编写 SQL 来提取和分析数据。而现在,只要为大模型提供清晰的上下文和数据格式,它就能出色地自动生成 SQL、配置大盘和定时任务。我们内部评测显示,在上下文充足时,大模型在此类任务上的准确率可达 80%-90%,甚至超过不熟悉 SQL 的工程师。这意味着,数据的提取方式已被彻底改变。
在更复杂的探索性、关联性分析方面,AI 同样能提供助力。例如,将复杂的系统场景截图交给大模型,其分析结果有时优于新手工程师。虽然它目前还无法替代专家进行根因分析,但已能显著提升所有工程师的工作效率。从“给人看”转向“给 AI 看”。未来的关键不再仅仅是美观的可视化,而是如何以结构化的方式组织数据,使其能高效地被大模型理解与利用。
王亚普:AI 训练过程出现问题时,常常表现为整体“卡住”,这使得系统稳定性和复杂度显著增加。过去的可观测主要依赖规则和阈值告警,针对已知问题;而 AI 的引入让系统具备一定的语义理解和推理能力,可以对未知问题进行可解释、可验证的分析。在以往的工作中,我们人工排查性能劣化可能需要数小时。而借助 AI,我们可以自动分析指标、链路和变更之间的关联,从被动响应转向主动可观测,甚至进一步实现推理与洞察的能力。
“信任”是一个渐进的过程,从辅助决策阶段,再到真正赋能核心决策阶段。在早期阶段,AI 应当只是“助手”或“建议者”,不直接拥有决策权。接下来,可以选择一些低风险场景来让 AI 自主处理,比如常见的运维咨询、日报生成、复盘报告等。这些任务即便出错,影响也可控。通过在这些场景中积累上千、上万次成功案例,我们就能逐步建立起团队对 AI 的信任,最终再把它推广到高价值、关键决策的应用中。
当然,当 AI 进入更关键的环节时,必须具备三种保障机制:1、可解释性:AI 在给出结论时,应当能提供推理路径和验证依据,让使用者能复核其逻辑;2、可审计性:所有 AI 决策过程都应记录为审计日志,关键链路要有审批机制和约束条件,确保 AI 是“加速决策”,而非“跳过安全流程”;3、可回滚性:在高风险任务中,AI 的操作必须支持快速回滚,一旦判断错误,可通过“一键撤销”或状态恢复机制还原现场。
AI 的价值在于提升效率、加速决策,而不是取代安全流程或责任机制。工程化的信任建设,正是让 AI 真正“可用、可控、可信”的关键。
从“易接受人群”切入,建立初始信任样本。不同业务团队对 AI 的接受度天然存在差异,有些团队更愿意尝试新技术。优先选择这类“激进型”业务团队深度合作,而非全面铺开。借助他们的实践,快速验证 AI 在具体场景的价值,形成可复制的信任案例。
嵌入日常路径,让 AI“润物细无声”地积累信任。早期阶段,核心是让 AI 融入人的现有工作流程,避免增加额外使用成本。以“告警群事件处理”为例,可分两步推进:第一步:做“辅助者”:在告警卡片的回复中,自动附带 AI 生成的分析和修复建议。用户无需主动调用,每次处理告警都能看到 AI 输出,逐步形成认知。第二步:做“勤杂工”:承接重复性工作,比如定期总结告警群的事件数据、梳理需重点关注的问题。让用户从“观察 AI”过渡到“依赖 AI 减负”。当然这一步还可以加上定期的一些 case 准确率统计, 让使用者更有量化的体感,强化使用 AI 效果还不错的印象和认知。
让 AI 更容易读懂数据、避免冲突。首先,推动非结构化数据结构化:将日志、告警描述等非结构化数据转化为键值对(Key-Value)或表格格式,比如将“服务器 A 内存使用率 95%”拆解为“server: A, metric: memory_usage, value: 95%”,方便算法直接提取特征。其次,建立数据质量校验规则:在数据采集阶段嵌入自动化校验逻辑,比如监控指标的取值范围:CPU 使用率不可能超过 100%、时间戳的统一性:避免跨时区数据混乱,单位的统一。 从源头过滤“异常数据”,减少 AI 冲突的理解和计算成本。
让“平台内各处容易联动跳转”, 进一步验证“数据链路”与“场景闭环”。首先,构建数据关联关系:让不同类型的可观测数据形成“联动链路”,比如点击某条告警信息,可直接跳转至对应的日志详情页、相关链路追踪图,无需人工复制 ID 跨平台查询。这些产品上能够形成的联动, 也往往很好的体验出数据层面的关联关系。 这种关联关系的构建, 相信也更容易让 AI 能拿到全面的 Context。 其次,统一数据存储与权限:采用兼容多类型数据的存储架构,同时建立统一的权限体系,避免因平台间权限隔离导致“数据孤岛”。
王亚普:别说大模型了,就算是传统监控系统,一旦数据出错,在公司内部都可能引发很大争议。比如误报或漏报,都会造成严重后果。进入 AI 时代后,这种风险被放大了。错误的数据不再只是导致错误的报表,而可能引发错误的决策,甚至错误的执行,后果会更加严重。
因此,标准化工作变得尤为重要。就像 OpenTelemetry 的出现,使得在 AI 时代快速落地链路追踪、指标监控等变得可能。在大模型语义理解层面,标准化同样关键。要实现深层次的可观测性,必须依赖数据之间的关联和可理解的数据建模。这是一项极具挑战的工作,需要公司层面的战略决心与资源投入。当前行业内尚无统一标准,阿里内部的 UModel 是少数尝试之一,但整体上各公司场景差异大,很难实现完全统一。
此外,我认为在大模型时代,语义标注的完整性甚至比格式统一更为重要。我们在开发 agent 工具时发现,一些字段很难在不同系统间统一,与其强行统一,不如在语义上建立清晰的标注和定义,让模型真正理解原始数据的含义。因此,数据治理和标准化是长期工程,也是可观测性系统在 AI 时代能否发挥价值的前提。高质量的数据,是一切智能分析的基础。