如何科学地利用MTTR优化软件交付流程?

这篇具有很好参考价值的文章主要介绍了如何科学地利用MTTR优化软件交付流程?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

谷歌提出的衡量 DevOps 质量的 DORA 指标让 MTTR(平均恢复时间) 名声大振。在本文中,你将了解到 MTTR 的作用、为什么它对行业研究很有用、你可能被它误导的原因以及如何避免 MTTR 产生的弊端。
 

MTTR 究竟是在测量什么?

MTTR 指平均恢复时间,既是 Mean Time to Recovery,有时也是 Mean Time to Restore。它是指在发生故障后使系统恢复运行所需的时间,它是 DORA 指标的一部分,目前已经成为软件交付性能的标准。
 

当你的所有 DORA 指标都表现良好,那么就会拥有快速交付的高质量软件、更满意的员工,从而在所处的行业中取得竞争优势。
 

如何计算 MTTR

收集 MTTR 需要收集每个故障从开始到结束的持续时间,然后将这些时间相加,并用总数除以数量。一些团队会对所有事件进行排序,并选择中间值来计算恢复时间的中位数。
 

软件交付过程会影响恢复时间,尤其是:

  • 软件架构
  • 文档
  • 可观测性
  • 部署流水线性能
     

当你可以快速恢复,事件的影响就会降低,客户也会更满意。因此,企业应该检查和调整流程以快速恢复并降低风险。
 

为什么 MTTR 对行业研究很有用?

DevOps 研究和评估(DORA)将调查作为研究方法的一部分。需要各类数据和性能水平不同的企业对问题进行回答。DORA quick check 将 MTTR 问题表述为:
 

对于您开发的主要应用程序或服务,当发生影响用户的服务事件或故障(例如,计划外中断、服务受损)时,通常需要多长时间才能恢复服务?

  • 超过6个月
  • 1-6个月之间
  • 1周到1个月之间
  • 1天到1周之间
  • 小于1天
  • 小于1个小时

 
大多数从事软件交付工作的人对故障持续时间都有大概的感觉,因此在调查中使用宽泛的选项可以让人们很容易选择答案。研究人员利用这些信息来寻找数据中的性能组,他们还寻找各种实践之间的关系以及对业务成果的影响,并利用这些发现搭建 DevOps 结构方程模型。
 

为什么 MTTR 数据可能误导你的团队?

虽然 MTTR 在研究中对性能组有帮助,但这并不是你在团队中使用故障信息的方式。你应该利用这些信息从服务中断中学习,并改进今后的处理方式。最终目标并不是与其他团队或组织进行攀比。
 

如果要持续优化软件开发和交付流程,只关注平均数可能忽略了一些重要信号。因此需要更细化的信息来了解故障处理的情况,并找到其原因。
 

Verica 事件数据库(VOID)包含了由近600个组织共享的超过10000个事件,他们在 VOID 报告中分析了这些事件。在2022年的报告中对 MTTR 做出如下评论:
 

MTTR 不是衡量复杂软件系统可靠性的可行指标,原因有很多,其中突出的原因是其存在潜在的差异性。

 

当数据量很大时,平均数所带来的差异性会变得平缓,但一般而言企业的故障频率不太可能会达到每月数千起(即在这个数量级才使平均数有效)。如果事件数量较少,平均数则成为一个不稳定的指标。甚至尽管在事件管理方面有所改进,但平均数依旧在增加。
 

VOID 数据库还发现,大多数事件在2小时内得到解决,但存在一些长尾数据导致平均值被推高或推低,进而无法代表客户看待系统可靠性的方式。
 

组织可以通过排除异常值来消除这种差异性,但那样就会隐藏一些有价值的信息。因此需要一个更好的方法使用这些数据来改善整个流程。
 

恢复时长的用武之地

与其把事件恢复时间压缩成一个平均数,不如把每个持续时间绘制在图表上。使用散点图或箱线图(Box-and-whisker chart),在不失真实性的情况下将持续时间可视化。这可以显示趋势和异常值,这比平均数更有价值。
 

如何科学地利用MTTR优化软件交付流程?
 

你现在可以清晰地了解修复时长的趋势,看看是否随着时间的推移而改善。还可以识别出异常值,并充分讨论如何更好地处理它们,进而利用它们来改善事件管理和系统稳定性。
 

如果事件需要代码修复,恢复时间取决于部署流水线的性能。能够快速、安全地部署软件新版本也有助于进行事件管理。另外,引入监控和告警工具有助于帮助企业在影响客户之前发现问题。
 

明确事件的定义

要获取大部分事件持续时间的数据,你需要对此有统一的定义:

  • 什么是事件
  • 什么是开始时间
  • 什么是结束时间
     

对于事件,企业内部需要有一个清晰、一致的定义。它应该包括当系统可以优雅地处理一个故障时,组织是否将其算作一个事件。例如,团队可以认为只有对客户产生影响的故障才是事件。
 

对于开始时间和结束时间也是一样的。是在导致事件发生的条件首次出现时开始计时,还是在问题对客户可见时开始计时?根据定义,甚至可能出现负的事件持续时间,即在故障影响到客户之前就解决了它。
 

就事件的定义和如何衡量其持续时间达成一致,使你的衡量标准更具可比性。当长期使用 DORA 指标时,它们可能不再能激发你进行下一步改进。你可以用 SPACE 框架设计一个新的衡量系统。
 

使用 SPACE 框架来衡量事件响应

你可以通过 SPACE 框架来全面了解事件响应和管理,其将测量结果分为5个类别:

  • 满意度和幸福感(Satisfaction and wellbeing)
  • 表现(Performance)
  • 活跃度(Activity)
  • 沟通与协作(Communication and collaboration)
  • 效率与流程(Efficiency and flow)
     

企业不必一次性采用所有指标。SPACE 框架建议至少在3个维度上进行测量,如果能涵盖个人、团队和系统层面则更好。最终目标是建议一套合理的测量方法来帮助企业改进流程。
 

满意度和幸福感

定性调查在这里最有效,可以调查事件管理者,看他们对事件发生后恢复的满意程度:

  • 事件管理流程
  • On-call 排期
  • 在事件发生期间升级或访问专家以提供帮助的难易程度
     

还可以去查看相关数据以确定 On-call 排期的合理性:

  • 当地时间几点电话响起
     

表现

使用以下指标可以衡量事件管理表现:

  • 系统是否按照其可靠性目标执行
  • 事故条件和察觉到事故发生之前的时长
  • 解决事故所需的时间
     

活跃度

事件活跃度并不仅仅是事件数量,其他指标也可以纳入参考。大部分数据其实已经在你的现有系统之中:

  • 监控工具发出的告警数量
  • 事件发生的数量
  • 同时发生事件的数量
     

沟通与协作

信息透明对事件管理至关重要。你应该把这个维度纳入事件测量策略中。拥有高质量的沟通将减少解决故障所需的时间,可以衡量以下指标:

  • 每个事件所牵涉的人员数量
  • 每个事件涉及多少个不同的团队
  • 为处理一个事件建群的数量
  • 查看事件报告的次数(或给予积极评价,或在其他事件中提到它)
     

效率及流程

当采用效率和流程的指标时,就会发现系统中的浪费。如果反复“踢皮球”,那么处理事件的进度就会停滞不前,解决时间更长。以下指标可以帮你发现瘟疫:

  • 重新分配事件的频率
  • 每个事件尝试缓解的次数
     

SPACE 框架总结

当需要获得各种洞察并改进系统时,团队应该自由构建并根据实际情况调整指标。企业可能会发现从满意度、沟通和效率这3类指标开始是有帮助的,因为通过测量这些指标并对相关情况进行优化会带来立竿见影的效果。
 

如果你已经对客户进行调查,不妨问问他们如何为你的系统可靠性评分。
 

SPACE 框架提供了一种构建衡量体系的方法,它可以直接对事件管理产生影响。
 

不囿于数字,解决问题才是硬道理

衡量相关指标可以通过明确的数据来帮助团队做出调整。如果没有数字,可能会把一个实际发生很频繁的事件当作一次性事件处理。
 

尽管数字发挥了作用,但它们只能告诉你问题所在,而无法解决它。因此,不要囿于数字,充分利用事件复盘和 review 来研究如何优化企业中的事件管理。
 

数字并不能推动持续改进,但它可以消除讨论中的偏见和逻辑谬误,以帮助团队处理好眼前的现实问题。
 

团队应该形成在事件发生后立刻对其进行复盘,以防止回归到日常工作之后缺少了上下文环境而无法正确分析出事件发生的原因。
 

对于根本原因的分析要谨慎,因为软件系统发生事故很少只有单一的原因,它通常是几个因素共同促成的。根本原因分析侧重于最接近事件的人,而不是更广泛的系统性问题。另外,需要进行事件后的 review,详细说明发生的一切以及您为减轻和解决它所做的工作。
 

事件复盘的成果可以提供给处理未来事件的人使用,有助于缩短解决时间。
 

安全是吸取事故教训的能力,而不是没有故障,事故复盘是最佳的学习机会。
—— Adrian Cockcroft

 
导致事故发生的原因从来不是单个员工,而是整个工作系统。如果有人登录服务器,不小心选择了“关闭”而不是“登出”导致服务器关闭,这本质上是系统的故障——为什么不隐藏“关闭”选项?为什么他们需要直接访问服务器?我们可以用 runbook 来做这个吗?
 

定期 review 来复盘最近的事件,可以在冷静理智的情况下找到模式并思考改进方式。从事件中学习比围绕恢复时间制定目标更重要。
 

参考链接:
https://octopus.com/blog/how-to-measure-mean-time-to-resolve文章来源地址https://www.toymoban.com/news/detail-464233.html

到了这里,关于如何科学地利用MTTR优化软件交付流程?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 甘特图是什么?利用甘特图来优化项目管理流程

    在现代项目管理中,图表是一种强大而直观的工具,可以帮助项目经理和团队成员清晰地了解并掌控整个项目进程。其中,甘特图是最常用和最有效的图表之一。 甘特图是一种条形图,可以用来直观地展示项目中各个任务的进度、持续时间和相互关系。它由一个横轴和一个纵轴组

    2024年04月28日
    浏览(42)
  • 混沌演练状态下,如何降低应用的MTTR(平均恢复时间) | 京东云技术团队

    在企业业务领域,锦礼是针对福利、营销、激励等员工采购场景的一站式解决方案,包含面向员工、会员等弹性激励SAAS平台。由于其直接面向公司全体员工,其服务的高可用尤其重要,本文将介绍锦礼商城大促前夕,通过混沌工程实战演习,降低应用的MTTR。 MTTR(平均恢复时

    2024年02月10日
    浏览(45)
  • 谷歌研究科学家:ChatGPT秘密武器的演进与局限

    来源|TalkRL OneFlow编译 翻译|徐佳渝、贾川   同样是基于GPT预训练模型,为什么ChatGPT的效果要远远超出GPT-3等前几代模型?答案已经揭晓, 成就ChatGPT的秘密武器在于RLHF,也就是人类反馈的强化学习 。 在预训练阶段,GPT模型学习关于这个世界的一切,而在RLHF阶段,ChatGPT更

    2024年02月04日
    浏览(46)
  • 3D开发工具HOOPS助力CAM软件优化制造流程

    在现代制造业中,计算机辅助制造(CAM)软件的发展已成为提高生产效率和产品质量的关键。为了满足不断增长的需求和日益复杂的制造流程,CAM软件需要具备高效的CAD数据导入、云端协作、移动应用支持以及丰富的文档生成能力。 Tech Soft 3D的HOOPS软件开发工具包(SDK)为尖

    2024年04月26日
    浏览(51)
  • 服务器机房上架交付流程

    服务器到货验收后,会进行机房机房上架,完成重装系统、网络配置后交付使用 采购服务器到货后,会联合多部门进行SN、配置、数量等多方面验收,如数量是否匹配,配置是否相符等 也会拆开机箱看看内部构造,了解下最新的服务器,箱体一般包含服务器、电源线、导轨

    2024年01月18日
    浏览(41)
  • 计算机软件工程、计算机科学与技术、大数据专业开题报告如何撰写?不懂的可以看下以下模板

    题目: 基于web的 在线音乐网站的设计 一、 立题意义及国内外的研究现状与存在问题,主要研究内容及拟解决的关键性问题 (含文献综述) 1、立题意义 因新冠疫情的影响,音乐网站的发展达到了一个新的高度,音乐网站的出现对于个人、社会、国家都是极为重要的,人们

    2024年02月15日
    浏览(56)
  • OpenAI开发系列(十五):AI敏捷开发的新范式:利用大模型优化和自动化应用开发流程(上)

    授权声明: 本文基于九天Hector的原创课程资料创作,已获得其正式授权。 原课程出处:九天Hector的B站主页,感谢九天Hector为学习者带来的宝贵知识。 请尊重原创,转载或引用时,请标明来源。 全文共5000余字,预计阅读时间约30~50分钟 | 满满干货(附代码),建议收藏! 本文

    2024年02月03日
    浏览(50)
  • 如何利用ProcessOn 做资产管理流程图

    资产管理 是一家公司最重要的管理活动。好的资产管理可以让资源最优化利用,实现资产价值的最大化。可以帮助组织管理和降低风险。同时当需要决策的时候,对资产数据进行分析和评估,也可以帮助做出更明智的决策,如优化资产配置、更新技术设备等。 一、资产流程

    2024年02月09日
    浏览(46)
  • 纵览机器学习前生今世,万字整理谷歌首席科学家 Jeff Dean 一小时演讲

    经过算法的改进和机器学习专用硬件的显著提升,我们现在能够构建比以往任何时候都更为强大的通用机器学习系统。 演讲者 | Jeff Dean 整理 | 王启隆 自从 2017 年谷歌发表了题为 “Attention is All You Need” 的重磅论文,其中提出的“自注意力”这一革命性的概念成为 Transform

    2024年03月27日
    浏览(49)
  • DevOps 2.如何利用监控工具优化应用性能?

    作者:禅与计算机程序设计艺术 在软件开发生命周期中,我们经历了从需求分析、设计到编码测试、发布上线,最后用户反馈。但随着互联网产品业务的快速发展,日活跃用户越来越多,同时系统访问量也越来越高,系统的响应时间变慢,最终导致用户体验下降甚至崩溃。

    2024年02月07日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包