更新时间:2025-09-11 GMT+08:00

SLO管理概述

SLO(服务级别目标,Service Level Objective)作为业界广泛认可的核心性能指标,是衡量服务/应用质量水平的关键量化标准,其核心价值在于为业务方与技术团队提供统一、可衡量的服务质量评判基准,确保服务能力与业务需求相匹配。

从计算逻辑来看,SLO 实际值通过“可用性”维度直观反映服务稳定程度,具体公式为:SLO实际值 = 1-(应用不可用时长/应用总时长)×100% 。其中,“应用不可用时长”指服务无法正常响应业务请求的累计时间(需排除预先报备的计划性停机时长),“应用总时长” 为统计周期内的完整时间范围(如天、周、月)。例如,若某应用在一天内不可用时长为10分钟,那么其SLO实际值 = 1-(10/1440)×100%≈99.31%,该数值越高,代表服务可用性越强,业务中断风险越低。

在云运维中心(Cloud Operation Center,COC)的运维管理体系中,三类核心运维工单会直接作用于SLO计算,分别是WarRoom、告警工单与特定属性的事件单,具体影响逻辑如下:

  • WarRoom工单:

    WarRoom是COC针对重大服务故障启动的工单,当服务出现大面积不可用、核心业务链路中断等严重问题时,可创建WarRoom工单,并触发跨团队协同响应。由于WarRoom对应的故障通常会导致较长时间的应用不可用,其持续时长会被完整计入 “应用不可用时长”,对SLO的影响程度最高。 例如某核心业务应用因服务器集群故障,出现大量用户无法访问的问题,运维团队创建WarRoom工单启动应急响应,最终故障持续时长长达2小时。若统计周期为1天,则该故障就会使SLO实际值下降至1-(2/24)×100%≈91.67%,直接拉低整体服务质量水平。

  • 告警工单:

    告警工单是COC基于监控指标阈值触发的预警类工单,涵盖CPU使用率过高、内存溢出、网络延迟超标等各类服务异常场景。并非所有告警工单都会影响SLO,仅当告警对应的异常状态导致服务无法正常提供功能(即产生实际不可用)时,才会将告警持续时长计入“应用不可用时长”。例如,某应用因数据库连接数耗尽触发告警,且在告警持续30分钟内无法处理用户请求,这30分钟会被纳入计算;而若告警仅为 “磁盘使用率接近阈值” 但未影响服务响应,则不会对SLO产生影响。

  • “业务是否中断” 属性为 “是” 的事件单:

    事件单是COC记录服务各类运行事件的基础工单,其 “业务是否中断” 属性是判断是否影响SLO的核心依据。当事件单该属性标记为“是”时,意味着事件已造成业务功能停滞(如用户无法登录、订单无法提交等),此时事件从发生到解决的持续时长会被计入 “应用不可用时长”;若属性为“否”(如服务后台日志异常但不影响前端功能),则仅作为运维记录,不参与SLO计算。