故障定级和定责

这篇具有很好参考价值的文章主要介绍了故障定级和定责。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

故障管理的第一步是对故障的理解,只有正确地面对故障,我们才能够找到更合理的处理方式。

这便需要做两个工作:一是跟踪线上故障处理和组织故障复盘,二是制定故障定级定责标准,同时有权对故障做出定级和定责。

所以,这里的一个关键就是我们要有明确的故障定级标准。这个标准主要为了判定故障影响程度,且各相关利益方能够基于统一的标准判断和评估。

现实情况中,因为各方受到故障的影响不同,对故障影响的理解也不同,所以复盘过程中,经常会出现下面这两种争执场景。

1、技术支持判定故障很严重,但是责任方认为没什么大不了的,不应该把故障等级判定到如此之高;

2、技术支持认为故障影响较小,但是受影响方却认为十分严重,不应该将故障等级判定得这么低。

那么久需要故障等级设置为 P0~P4 这么 5 个级别,P0 为最高,P4 为最低。对于电商,主要以交易下跌、支付下跌、广告收入资损这些跟钱相关的指标为衡量标准。对于其他业务如用户 IM 等,主要区分业务类型,制定符合业务特点的定级标准。两个示例如下。

交易链路故障定级标准示例:

故障定级和定责

用户 IM 故障定级标准示例:

故障定级和定责

故障定级的标准,会由技术支持与各个业务研发团队进行点对点的细节沟通讨论,从业务影响角度把影响面、影响时长这些因素串联起来。这样即使在后续出现争执,也会有对应的标准参考。这个标准可能覆盖不到有些故障影响或特例,但是技术支持可以根据自己的经验进行“自由裁量”。同时,每个季度或半年对标准进行一次修订和完善。

不同的故障定级,在故障应对时采取的策略也就不同。一般来说,P2 及以上故障就需要所有相关责任人马上上线处理,并及时恢复业务。对于 P3 或 P4 的问题,要求会适当放宽。整个过程,技术支持会给出一个基本判断,然后会组织召集临时故障应急小组处理。

故障定级标准,主要是用来判定故障等级,使得故障相关方不至于过分纠结在等级标准上。而故障定责的主要目的是判定责任方。这就需要有明确的故障定责标准。

1、避免扯皮推诿。比如我认为是你的责任,你认为是我的责任,大家争执不清,甚至出现诋毁攻击的情况。

2、正视问题,严肃对待。不是为了处罚,但是作为责任方或责任团队一定要正视问题,找出自身不足,作为改进的主要责任者,来落地或推进改进措施。

关于定责,有下面几个维度供参考。

1、变更执行

比如变更方没有及时通知到受影响方,或者事先没有进行充分的评估,出现问题,责任在变更方;如果通知到位,受影响方没有做好准备措施导致出现问题,责任在受影响方;变更操作的实际影响程度大大超出预期,导致受影响方准备不足出现故障,责任在变更方。

2、服务依赖

比如私自调用接口,或者调用方式不符合约定规则,责任在调用方;如果是服务方没有明确示例或说明,导致调用方出现问题,责任在服务方等等。

3、第三方责任

比如机房 IDC 电力故障、服务器故障、运营商网络故障等等,如果确实是不可抗力导致,责任在第三方;但是因自身的冗余或故障预案问题导致故障,责任在应用 Owner。

有了这样的原则,在故障复盘时,就可以有效减少不和谐氛围的出现。因为每个公司的业务形态和特点不一样,里面的具体内容可能也不一样,上述的定责标准可能不完全适用,所以仅供示例参考。如果你在日常深受故障定责的困扰,建议尽快把规则明确起来,并能够与各方达成一致,这样就会最大程度地减少扯皮推诿的情况出现。

此文章为4月Day12 学习笔记,内容来源于极客时间《赵成的运维体系管理课》,推荐该课程。文章来源地址https://www.toymoban.com/news/detail-411996.html

到了这里,关于故障定级和定责的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 渗透测试-第一步 信息收集 【详细介绍】

    1. 信息收集 黑客的第一步要做的事情永远是信息收集 同样渗透也是 什么是信息收集? 信息收集是最具有灵魂的一步,通常拿到渗透测试站,需要对该站进行信息收集,只有收集到了足够多的信息后,对方暴露出来的问题越多,信息越多,攻击的面也越广。知己知彼百战百胜

    2023年04月18日
    浏览(83)
  • 机器视觉定位入门三步走-第一步

           一个中心,就是旋转中心,旋转中心的确定在一次定位中非常重要(一次定位指的是只进行一次拍照,针对当前点进行运算,多次定位广泛指先拍照进行角度纠偏,纠偏结束后再次拍照进行平移纠偏),旋转中心未校准正确时最常见的表相就是:1在只进行xy纠偏时,数据

    2024年02月09日
    浏览(37)
  • Node学习第一步 | 简介及安装

    Javascript可以在浏览器运行, node可以让javascript在浏览器之外运行 可以用来做本地运行的软件/网络服务器/游戏等等 记得安装vs code里面力扣插件需要先安装node.js, 但我不知道node是做什么的 本地还没有安装node, 下面开始安装 登陆node官网下载 选择左边稳定版本 安装pkg⬇️ cont

    2024年02月08日
    浏览(51)
  • 【Linux】基本指令,拥抱Linux的第一步

    就像我们当初学习使用Windows一样,我们总要从最开始简单操作学起,例如点击,双击,认识一些文件夹,文件,怎么进去文件夹,怎么打开文件,等等这些操作。我们开始学习使用Linux也是学习一些基本的操作。在此之前,我希望来先谈一谈指令。 首先说明,我们使用指令与

    2024年02月05日
    浏览(54)
  • 极客之眼 Nmap:窥探世界的第一步

    项目 描述 搜索引擎 Google 、Bing Nmap 官方 Nmap Reference Guide 从实践中学习 Nmap 渗透测试 大学霸 IT 达人 著 项目 描述 Linux 操作系统 Kali-Linux(x86-64) Nmap 7.93 极客之眼 Nmap(Network Mapper) 是 一个免费的开源网络扫描工具 ,它可以用来探测主机和端口,以及执行漏洞扫描和安全审

    2024年02月06日
    浏览(53)
  • 转转“拯救世界”的第一步,师从小米换LOGO?

    宣布转型循环经济产业公司的转转集团,也换了个新LOGO。 一石惊起千层浪。 网友戏称:“互联网品牌不是在换LOGO就是在换LOGO的路上”。事实也是如此,近两年无论是LOGO用了十几年的老品牌,还是诞生仅数年的新行业独角兽均选择更换新LOGO,各大品牌们扎堆换新LOGO背后的

    2023年04月09日
    浏览(48)
  • Adobe进军AI第一步——Firefly试用体验

    在 关于人工智能讨论度高居不下的今天 , 各个行业的领路企业也纷纷不甘落后。Adobe作为媒体界的行业标杆,就在近期推出了自己的人工智能图像应用——萤火虫firefly。虽然这只萤火虫刚刚“起飞”,它已经展现的文字生图和能力算是及格。我分别在网页版和PS中尝试了f

    2024年01月18日
    浏览(41)
  • 2.flink编码第一步(maven工程创建)

    万里第一步,要进行flink代码开发,第一步先整个 flink 代码工程 flink相关文章链接 flink官方文档 一种命令行 mvn 创建,另一种直接在 idea 中创建一个工程,使用 mvn 的一些配置 mvn命令行创建 mvn 创建 flink 工程,创建的工程里多了一些兼容性配置, 后面自己使用idea创建时,进

    2024年02月07日
    浏览(38)
  • 构建OpenStack私有云--第一步:配置Keystone服务

    keystone是一个认证服务,所有服务在接收到用户请求时,都必须找keystone服务去做认证,把用户请求中的信息拿出来去匹配,能匹配到才去检查你有没有相应的权限,然后给你资源。 还有个作用是目录列表 1. 创建keystone数据库 不过最后一行命令会抱错,这是因为当前172这个地

    2023年04月11日
    浏览(40)
  • 大数据第一步-Mac安装Hadoop3

    前提是把jJDK8安装好,hadoop3.x最低需要jdk8。 然后打开共享把远程登陆打开,不打开说是后面会报错, 到终端输入命令:ssh localhost 生成新的keygen否则后面会报错 Permission denied 命令:ssh-keygen -t rsa -P \\\'\\\' -f ~/.ssh/id_rsa   注册,命令为如下: 安装hadoop,命令为我用的是bre

    2024年02月16日
    浏览(59)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包