SRE中的SLA/SLO/SLI-Toy模板网

这篇具有很好参考价值的文章主要介绍了SRE中的SLA/SLO/SLI。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

SLA通俗理解

SLA 表征服务方与客户间的服务等级协议，定义服务方需保证的服务质量以及不达标情况下的服务补偿，在SRE领域，SLA 细分为 SLI、SLO 与 SLA：

SLI，服务质量指标，服务的某项质量的一个具体的量化指标，如时延、吞吐量、错误率等。
SLO，服务质量目标，服务的某项 SLI 的具体目标值，或者目标范围，如 99% 访问延迟 < 500ms。
SLA，服务质量协议，描述在服务不达 SLO 情况下的后果，可简单理解为 “SLA = SLO + 后果（惩罚）”。

由于SLA是交付给客户的协议，因此 SLA 中的 SLO 是需要可直观被用户感知的，直接影响用户体验的，这是 SLA 隐含的应有之义。

SRE中的SLA/SLO/SLI

因此，计算 SLA 主要在于定义服务不同维度的 SLI，根据不同 SLI 设计合理 SLO，并经时间段采集、计算汇总得出每个 SLO 不达标时间，进而计算服务所有 SLO 总的不可用时间，利用总时间与所有 SLO 不可用时间差值与比值，得出服务最终的 SLO。

SLO 计算模型

对于大多数服务而言，表述服务可用性最直接的方式可能就是服务可用时间。在这种体系下，常说的99.9%，99.99%，99.999%的可用性都是时间维度的统计，可以理解为：在规定的条件和规定的时间内，完成规定任务的概率。基于时间的可用性有如下表述形式：

可用性 = 系统正常运行时间 / 统计周期内的总时间

同时为了避免选择过大的时间窗口会平滑可用性计算，无法准确表现某个时间段服务的状态，因此将时间窗口缩小到秒级，定义在每个小时间片内的成功率要求，如果达标则认为该时间片可用，那么可用性又可以有如下表述形式：

可用性 = 系统达标时间 / 统计周期内的总时间

时间窗口越小越精确，这其实是一个积分运算，窗口越小越能准确表现总体趋势，但也需权衡数据分析性能与准确性，常用时间窗口1min

看一个示例：

SRE中的SLA/SLO/SLI

SLO1 = 1 - T2/(T1+T2+T3+T4)
 
SLO2 = 1 - T3/(T1+T2+T3+T4)

根据每个指标的 SLO 结果聚合出服务的总体 SLO：

SLO = 1 - (T2+T3)/(T1+T2+T3+T4)

开放服务 SLA 建设

问题定义

如何定义开放服务的 SLI、SLO，是否能基本表征服务质量？
采集对应 SLO 所需元数据并计算
SLO 不达标时，快速定位原因，并驱动服务质量提升

服务SLI

衡量服务有多个维度：性能（响应时间）、可用性（成功率）、自定义业务指标（任务队列排队数）等，每个维度又有多个指标，针对开放服务需挑选直接与用户使用相关的指标、下游对服务的依赖能力等。

服务重点关注性能和可用性，结合集团内部其他衡量案例，采用可用率（失败率）和响应时间作为SLI。

可用率

可用率不是成功率，有很多请求失败是客户端传参失效、登录态超时导致，HttpCode 以 4xx 标识。可用率可用公式

available = count(2XX) / (count(2XX) + count(5XX) - count(noise))

额外说明：

计入开放服务 SLO 的特殊情况：

网关等待服务响应超时（10s）会返回给客户端 503，这是网关层做的安全管控，可理解为：服务性能问题、网络故障、服务故障等，这部分会记入开放服务 SLO
开放接口转发规则配置出错导致503，后期网关可在开放接口发布流程上做强管控尽可能避免此类问题发生
请求body过大（超过521KB）的拦截、大响应（超过2M）拦截

计入网关 SLO 的特殊情况：

网关认证中心错误，如超时、服务不可用

不计入 SLO 的特殊情况：

网关与服务长连接超时问题导致返回503，网关调用HTTP服务失败，这种情况一般是业务的HTTP长连接空闲配置与网关不一致导致, 网关为60秒空闲自动关闭连接，如果业务方服务的空闲时间小于60秒就会导致这个问题，原理参考：https://segmentfault.com/a/1190000021704869
限流（理论上是网关的保护逻辑，不应计算在可用率内），包括主动限流 + 被动限流，每个开放接口默认500QPS，超过即限流；提供业务侧主动限流，定向防刷

因此需消除已上噪音才能相对准确反应开放服务可用率。

响应时间

响应时间很大程度上代表服务性能，但由于不同服务不同接口的业务特点，如果强制划定所有接口 RT 需小于一定值则有失公允，因此基于分位数计算历史一个月服务的总体数据，eg: TP<90> < 275ms，近一个月百分之90的请求的 RT 在 275ms内，利用该值放缩至每个小时间片，时间片内每个接口 rt < 275 则符合要求，否则不满足。随着服务的分位数 TP<90> 的不断迭代，进而影响每个小时间片内的达标率，促使服务性能优化。

响应时间采用如下策略：