通过滴滴技术博客:探寻造成此次P0故障的真正原因

这篇具有很好参考价值的文章主要介绍了通过滴滴技术博客:探寻造成此次P0故障的真正原因。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

2023年11月27日晚至2023年11月28日早晨,滴滴发生了长达12小时的P0级故障,导致滴滴核心业务都受到了影响,比如不显示定位无法打车、滴滴单车无法扫码等问题,期间滴滴进行了多次致歉


来源:https://weibo.com/2838754010/NuMAAaUEl

目前问题故障已经恢复,根据最新的消息得知造成此次事故的原因,是由于升级K8S 集群导致

那么在K8s升级过程中,遇到了那些问题,我们可以从滴滴弹性云基于 K8S 的调度实践 文章中看出一些原因

1. 集群体量大

最大集群规模已经远远超出了社区推荐的5千个 node 上限,有问题的爆炸半径大;

2. 版本升级跨度大

直接从1.12 升级到了1.20,跨越多个版本,有可能存在api不兼容的问题

3. 升级方式应该选择了原地升级

虽然滴滴有能力基于K8S二次开发,但是由于版本跨度较大,细节点较多,原地升级风险我觉得比替换升级
大不少。
比如集群版本已经升级为1.20,但是Node节点的kubelet的版本还是 1.12,如果api不兼容,那么这个影响是非常大的,集群回滚又没有那么快。

基于以上三点P0故障就这样产生了,至于为什么不采用替换升级方式?

作者认为替换升级需要业务系统配合,推进困难

通常情况下,替换升级的风险最小,因为一旦出现问题,可以及时回滚,然而这种方式需要与业务系统进行配合改造。

对于像滴滴这样规模巨大的业务,让每个业务方逐一配合是非常困难的(也可能业务方核心人员被降本增效了)。

同时,如果替换升级出现问题,业务方也有一定的责任,因此干脆由运维团队来负责这个任务可能更为合适。文章来源地址https://www.toymoban.com/news/detail-747555.html

到了这里,关于通过滴滴技术博客:探寻造成此次P0故障的真正原因的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 探索ES高可用:滴滴自研跨数据中心复制技术详解

    Elasticsearch 是一个基于Lucene构建的开源、分布式、RESTful接口的全文搜索引擎,其每个字段均可被索引,且能够横向扩展至数以百计的服务器存储以及处理TB级的数据,其可以在极短的时间内存储、搜索和分析大量的数据。 滴滴ES发展至今,承接了公司绝大部分端上检索和日志

    2024年02月13日
    浏览(47)
  • 10分钟带你探寻Spring4到Spring6的技术蜕变

    今天强哥带你们仔细撸一撸spring4到spring6是如何进行迭代的,很多小伙伴都在使用spring,但是对于他们的区别却是不甚了解。 我们就来聊一聊!我们将从昔日的Spring4,穿越到优雅的Spring5,最终抵达崭新的Spring6。在这趟旅程中,我将为你们揭开三个版本的面纱,通过详细的对

    2024年02月11日
    浏览(39)
  • 【故障公告】博客站点一台阿里云负载均衡被DDoS攻击

    13:06 收到阿里云的电话与邮件通知,博客站点的一台阿里云负载均衡因 DDoS 攻击被关进黑洞(所有访问被屏蔽),部分用户的访问受影响,由此给您带来麻烦,请您谅解。 您的IP:x.x.x.x 实例名称:yyyy 受到攻击,攻击流量已超过DDoS基础防护的黑洞阈值,服务器的所有公网访问

    2024年02月05日
    浏览(35)
  • stm32通过STM32 ST-LINK Utility 下载程序,由于程序错误,造成芯片无法连接,解决办法

    1 安装 STM32 ST-LINK Utility 2 打开 3 没有正确连接st-link 4 没有正确连接芯片 5 芯片被读保护,防止盗版 6 解除读保护功能后 7 下载程序 8 下载中 9 下载成功 10 . 由于程序错误,造成芯片无法连接 请RST键接地,启动连接,3秒钟后,松开就能进入写程序状态.

    2024年02月09日
    浏览(72)
  • 如何通过无线路由故障指示灯查看故障发生在什么地方

    当无线路由器发生故障时,我们可以从控制面板上的指示灯状态,来判断故障发生在什么地方,本篇以腾达无线路由器介绍无线路由器故障时各种指示灯的状态,从分析这些灯的闪亮就可以判断是哪里出现问题了。 1、ADSL的Power灯 :电源显示,正常应长亮,不亮则表明没有通

    2024年02月05日
    浏览(89)
  • SourceTree中“提交回滚”和“重置到此次提交”的区别

    用一个例子来说明: 若只需要撤销2的提交,1、3保留,则点击记录2右键“提交回滚”,则本地的2被回滚,推送后线上分支也回滚了。(恢复刚刚到操作:点击“提交回滚”后的右键再次“提交回滚”,则撤销了刚刚的回滚,即1、2、3都在) 注意: 提交回滚时,2的提交记录

    2024年02月05日
    浏览(42)
  • 当你有几个技术博客时,如何一键分发到多个技术博客平台?

    如果你写博客,你一定会遇到这样一个问题,我在掘金写了一篇文章,想要发到其他的平台每次都有复制粘贴,还经常遇到格式不匹配、图片复制不过去等各种问题。可真是头大呀 接下来就给你介绍一个非常王炸的工具,只要把你写的文章编辑一次,就可以导出分发。 专门

    2024年02月08日
    浏览(49)
  • 通过 jekyll 构建 github pages 博客实战笔记

    jekyll 搭建教程 安装 Ruby,请访问 下载地址。 Jekyll 是一个简单且具备博客特性的静态网站生成器。 Jekyll 中文文档 极客学院中文文档 使用以下命令安装 Jekyll。 在中国可能需要使用 代理软件 。然后,请等待并学习如何使用它。 或者,您可以使用 rails 替代 Jekyll。 如果您使用

    2024年02月04日
    浏览(71)
  • Jtti:如何通过宝塔面板快速安装WordPress博客源码?

    通过宝塔面板快速安装WordPress博客源码是非常简单的。宝塔面板提供了图形化界面,使安装过程变得直观和方便。以下是通过宝塔面板安装WordPress的步骤: 登录宝塔面板: 打开您的Web浏览器,访问您的宝塔面板地址(通常是 http://服务器IP地址:8888 或域名),然后使用您的登

    2024年02月10日
    浏览(43)
  • 手机无法通过wifi上网的原因分析(路由器故障)

    手机软件及路由制式不兼容、布网不佳 目前,Wi-Fi上网越来越普及。根据Wi-Fi联盟统计的数据,近两年,全球Wi-Fi用户每年以20%的速度增长。同时,在中国,移动、联通、电信三大运营商共建设了100万处Wi-Fi热点。Wi-Fi联盟首席执行官Edgar Figueroa直言,目前国内运营商大力扩展

    2024年02月05日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包