稳定性建设框架

这篇具有很好参考价值的文章主要介绍了稳定性建设框架。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

稳定性建设框架

一、为什么要做稳定性建设

1、从熵增定律引出稳定性建设的必要性

物理学上，用“熵”来描述一个体系的混乱程度。卡尔·弗里德曼提出熵增定律，他认为在一个封闭的系统内，如果没有外力的作用，一切物质都会从有序状态向无序状态发展。

如果我们不希望系统变混乱，有什么办法呢？答案是对抗熵增定律，对抗熵增定律的方法是借助外力，让系统从混乱回归有序。举个例子：

下图中，我们使用“熵”值来衡量“骰子系统”的混乱程度，1（最大值）表示“最混乱”，意味着我们不能控制“投骰子”的结果，每次投骰子的结果会在1~6随机出现，系统表现不稳定；1/6（最小值）表示“最有序”，意味着我们能够控制“投骰子”的结果，系统表现稳定，比如我们希望每次投筛子的结果都是6，我们可以引入作弊手段（即借助外力），让每次投骰子结果都是6。

稳定性建设框架

熵增定律同样适合软件系统，一个软件系统刚发布时是有序的，熵值趋于1，随着不断迭代，慢慢变成混乱的、脆弱的，从而导致线上问题频发，熵值趋于0，我们需要借助外力，即稳定性治理手段，提高系统熵值，让系统恢复稳定。

2、稳定性建设的意义

如下图分析，系统不稳定会产生真金白银的损失，因此，稳定性建设的意义是：不是让业务多挣钱，而是让业务不丢钱！

稳定性建设框架

3、稳定性衡量公式

① 公式

通过如下公式衡量系统稳定性：Availability = MTTF / (MTTF + MTTR)

②公式说明

稳定性建设框架

MTTF (Mean Time To Failure，平均无故障时间)，指系统无故障运行的平均时间，取所有从系统开始正

常运行到发生故障之间的时间段的平均值，即：MTTF =ΣT1/ N。

MTTR (Mean Time To Repair，平均修复时间)，指系统从发生故障到维修结束之间的时间段的平均值，即：

MTTR =Σ(T2+T3)/ N。

③公式量化

通常是“SLA是几个9”去衡量，对应下表：

稳定性建设框架

④常见问题

问题：SLA应该按照哪个维度去定义？接口、应用、业务？

答：都可以，只要讲清楚是接口SLA，还是应用SLA，还是业务SLA就可以。但注意：提到应用SLA，应该等于核心接口的最差SLA；提到业务SLA应该等于黄金链路的最差SLA。

问题：SLA时间计算周期应该多少？

答：都可以，主要讲清楚计算周期就可以，一般以年为单位更具代表性。

4、常见误区

①不要认为“分布式环境是稳定的”

认为：网络是可靠的，带宽是无限的，网络的拓扑不会变，延时为0，传输开销为0

实际：网络会抖动，带宽有上限，存在down机导致的拓扑变化，存在响应超时的概率，等等。

②不要有“确定性思维”，要有“不确定思维”

认为：遵守经验法则，if x then y。举例：我见过天鹅是白色的，所以世界上所有天鹅都是白色的；这个系统一直运行良好，所以未来也不会有问题。

应该：世界是不确定的，if x then maybe y。举例：天鹅还有黑色的。

③不要“甩锅”，要有“主人翁精神”

认为：故障是因为他们系统挂了，我们只需要打电话通知一下，慢慢等着恢复就行。

应该：提前思考依赖系统故障了，我们如何让我们用户尽可能地正常运行；故障出现了，共同想办法解决问题。

文章来源地址https://www.toymoban.com/news/detail-710032.html

二、业界现状

1、技术现状

互联网的发展，带来越来越大的流量，为了支撑越来越大的流量，架构也一直在演进：单体应用架构 -> 垂直应用架构 -> 分布式架构 -> SOA架构 -> 微服务架构 -> 服务网格。当前流行的微服务架构中，在应用层面、基建层面上都会有一些保障稳定性的机制：

应用层面的稳定性保障机制

以SpringCloud全家桶为例，提供了很多组件，帮助我们保障系统稳定性，如下图：

稳定性建设框架

基建层面的稳定性保障机制

基建层面上，也会有一些稳定性保障机制，如下表：

分类	中间件	稳定性设计
中间件	MySQL	CPU监控，及时超负载情况；慢SQL监控机制，及时发现高危行为。
	MQ	MQ积压监控机制，及时发现负载情况；死信处理能力，隔离异常数据和正常数据。
	其他	—
基础设置	Kubernetes	动态扩容机制，业务高峰多一些机器，低峰少一些机器；无损上线机制，避免上线过程的PV_LOST。
基础设置	机器监控	对机器CPU、内存、磁盘进行监控，及时发现机器故障

2、落地现状

根据所见所闻，当前技术团队做稳定性治理一般采用如下2种方法：

运动式的搞一波稳定性建设

当线上故障频发，通常会搞个“稳定性治理专项”，定义一些治理点，并给出方案，然后运动式的搞一波。一般经过治理后，稳定性会明显好转，但是由于是运动式的搞，随着业务不断迭代，根据“熵增定律”，稳定性又变差。

缺点：不能闭环的搞，治理时稳定性好转，不治理时稳定性变差，给人感觉技术团队一直出问题。

点状的搞，针对每个点专项闭环治理

比如搞个“慢SQL治理专项”，通过监控平台发现慢SQL，给研发发工单，并考核时效；比如搞个“限流治理专项”，让所有接口配置限流参数，配置限流告警策略。

缺点：研发会感觉稳定性专项很多，也不清楚价值，有时候会应付了事，达不到稳定性治理的目标。

三、稳定系治理应该如何开展

将稳定性建设分为3个阶段：事前预防，事中止损，事后复盘，针对这3个阶段，建设思路分别是：

1、事前预防

稳定性建设本质上是对抗熵增原理的过程，具体是通过一些技术手段（比如超时治理、限流治理、降级治理、慢SQL等），提前对系统可能出现的故障，建设应对措施，从而让系统按照设计目标去运行。

注意：稳定性治理的手段很多，每落实一种治理手段，稳定性就能提升一点，可以列出所有已知的治理手段，然后按照优先级逐个治理。

稳定性建设框架

2、事中止损

按照稳定性衡量公式（如下图），降低T2或T3可以提升SLA，因此，出现故障后，应该尽可能地降低T2和T3。降低T2的方法是尽快发现系统出现故障，需要依赖监控和告警能力；降低T3的方法是尽快解决问题，需要先止损后找原因，需要一套明确的SOP提高效率。

稳定性建设框架

3、事后复盘

复盘的目标不是定责，而是为避免再犯，因此，在复盘过程中要追到直接原因和根本原因，这2者有很大区别：直接原因指的是因果关系，表达“因为干了什么，所以导致什么”；根本原因是流程规范、认知迭代层面的问题，比如“因为分支规范不是master上线，导致上丢代码，如果改用gitflow则能够能够完全避免上丢代码的问题”。

关于直接原因和根本原因的举例：陈胜吴广起义，直接原因是：下大雨，可能会迟到，迟到要杀头，所以造反了；根本原因是：秦朝严苛的制度，即使没有那场雨，即使没有陈胜吴广，也会有下一场雨，下一个张胜某广，因为别的原因进行起义。

四、稳定系治理框架

如上一章节所述，当我们从“事前预防，事中止损，事后复盘”的角度去挖掘稳定性治理手段，会发现有很多业界流行的手段，比如超时治理、限流治理、系统隔离、常态化压测、慢SQL治理等等。

然而技术资源永远有限，能够拿出15%的比例做稳定性治理，已经很不错了；另外，业务的不同发展阶段需要的稳定性手段不一样，不同稳定性治理手段的ROI也不一样，因此，我们需要回答一个问题：在有限的研发资源下，如何去按部就班的去搞稳定性治理。

最佳实践是：搭建一个稳定性治理的框架，把稳定性治理手段填充进去，根据业务所处阶段，选择适合当下的稳定性治理手段，可以通过如下的表格进行管理：

一级分类	二级分类	治理手段	解决啥问题	在啥阶段做	闭环治理方案
事前	容量	常态化压测	直观了解服务容量，帮助评估容量够不够	成熟期	略
		限流治理	设置qps上限，避免异常流量导致的事故，如爬虫	成熟期	略
		弹性伸缩	高峰期自动扩容，低峰期自动缩容，相同成本下让系统容量更高	成熟期	略
	高性能	超时治理	设置接口超时时间合理，避免下游故障导致雪崩	中期	超时治理方案
	高性能	慢SQL治理	解决慢sql引发数据库故障，从而导致的事故	中期	略
	变更管控	上线checklist	通过checklist规范，降低变更引发故障的概率	早期	略
		灰度发布	通过灰度发布能力（AB灰度、链路灰度、沙箱灰度等），控制线上问题的影响范围和影响时长	成熟期	略
		无损发布	通过无损发布能力，避免请求链路异常断开，引发的脏数据	中期	略
	灾备	降级治理	非核心依赖故障时，摘掉依赖，控制线上问题的影响范围和影响时长	成熟期	略
		隔离	分物理隔离和逻辑隔离，比如微服务强调中间件隔离，即多个应用不要使用相同的DB、redis等，能够减少中间件故障导致的影响面	早期	略
		故障演练	通过故意植入故障，检验系统的健壮性，提前发现&解决潜在问题	成熟期	略
		多机房	同一个应用的多个机器，分布到不同机房，避免一个机房故障导致应用整体不可用	中期	略
		大报文治理	避免大报文引起的系统故障	成熟期	治理方案
	工程质量	静态代码扫描	发现&解决代码中的潜在风险，减少带到线上的问题数量	早期	略
		单测	增加自测环节，减少带到线上的问题数量	中期	略
		自动化测试	通过流水线等自动化工具，对应用进行测试，减少带到线上的问题数量	中期	略
	安全	sql注入	避免sql注入的引发的线上问题	早期	略
		越权	避免越权（水平越权、垂直越权）的引发的线上问题	早期	略
		反爬	接入反爬平台，及时发现和反制爬虫，避免爬虫引发的线上问题	成熟期	略
事中	——	监控告警	梳理监控全景图，将误报率和漏报率控制在合理区间	早期	略
		故障定位	通过工具、平台快速定位故障，快速发现和解决线上问题	中期	略
		SOP	指定标准操作手册，知道大家发现和解决线上问题	中期	略
事后	——	casestudy	对线上问题进行复盘，并落地改进项，持续提升团队技术水准	早期	略