语雀服务器P0事故的一些启发

这篇具有很好参考价值的文章主要介绍了语雀服务器P0事故的一些启发。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


语雀服务器P0事故的一些启发,架构之路,服务器,运维,原力计划

背景

语雀是蚂蚁金服旗下的一款在线文档编辑与协同工具,自2018年上线以来,凭借其强大的功能和优秀的用户体验,吸引了众多个人和企业用户,成为了国内最受欢迎的在线文档平台之一。然而,就在2023年10月23日,语雀遭遇了一场前所未有的P0级事故,导致平台无法正常访问和使用,持续了近8个小时(14时10分至21时45分左右)

语雀服务器P0事故的一些启发,架构之路,服务器,运维,原力计划


错误显示

语雀服务器P0事故的一些启发,架构之路,服务器,运维,原力计划


故障原因及处理过程

语雀服务器P0事故的一些启发,架构之路,服务器,运维,原力计划


改进措施

  • 1、升级硬件版本和机型,实现离线后的快速上线。该措施在本次故障修复中已完成;

  • 2、运维团队加强运维工具的质量保障与测试,杜绝此类运维 bug 再次发生;

  • 3、缩小运维动作灰度范围,增加灰度时间,提前发现 bug;

  • 4、从架构和高可用层面改进服务,为语雀增加存储系统的异地灾备。


补偿

语雀团队表示,为了表达歉意,团队将向所有受到故障影响的用户提供如下赔偿方案:

  • 针对语雀个人用户,我们赠送 6 个月的会员服务。操作流程:进入工作台「账户设置」,点击左侧「会员信息」,在会员信息页面点击「立即领取」,即可获得赠送服务。

语雀服务器P0事故的一些启发,架构之路,服务器,运维,原力计划


启发

那么在这次服务器PO事故上我们能得到什么启发,采取什么样的措施来尽可能避免线上突发的问题,或者尽快恢复线上业务,谈谈个人的见解:

  1. 高可用架构

    采用集群、负载均衡、冗余备份等技术手段,确保服务器的高可用性。当一个服务器出现故障时,其他服务器可以接管其工作,保证服务的连续性。

  2. 监控和告警

    建立完善的监控系统,实时监测服务器的运行状态、性能指标和异常情况。及时发现问题,并设置告警机制,及时通知相关人员进行处理。

  3. 容灾备份

    定期进行数据备份,并将备份数据存储在不同的地理位置或云服务商上,以防止数据丢失。同时,建立容灾方案,当主服务器出现故障时,能够快速切换到备用服务器。

  4. 自动化部署和回滚

    采用自动化部署工具,确保服务器的配置和应用程序的部署过程可重复、可靠。同时,建立回滚机制,当部署出现问题时,能够快速回滚到上一个稳定版本。

  5. 灰度发布

    在发布新版本或更新时,采用灰度发布策略,逐步将流量引导到新版本,以降低发布带来的风险。如果出现问题,可以快速回滚到旧版本。

  6. 定期演练和测试

    定期进行系统演练和压力测试,模拟各种故障和异常情况,验证系统的稳定性和可靠性。同时,进行回滚测试,确保回滚操作的可行性和正确性。

  7. 日志和审计

    记录服务器的运行日志和操作日志,便于故障排查和问题定位。同时,进行审计,监控服务器的访问和操作,防止未授权的访问和恶意操作。

  8. 容错性

    系统应该能够容忍部分故障或异常情况,不会导致整个系统崩溃或无法使用。通过合理的设计和架构,将系统的各个组件解耦,降低单点故障的风险。

  9. 弹性扩展

    系统应该能够根据业务需求和负载情况进行弹性扩展,以满足用户的需求。通过自动化的扩容和缩容机制,根据实际情况调整系统的资源配置。

  10. 性能优化

    对系统进行性能优化,提高系统的响应速度和吞吐量。通过合理的缓存策略、数据库优化、代码优化等手段,提升系统的性能。

  11. 安全性

    确保系统的安全性,防止未授权的访问和恶意攻击。采用安全认证、加密传输、漏洞扫描等措施,保护系统的数据和用户的隐私。

  12. 持续改进

    不断进行系统优化和改进,根据用户反馈和业务需求,及时修复问题和提升系统的功能和性能。通过持续集成和持续交付,快速发布新版本和修复补丁。

  13. 稳定业务不动

    对于线上稳定的业务,一般都不要去动它。

  14. 多方验证

    对于需要上线的业务,需要执行的重要的sql,一定要经过多方的验证。

  15. 不要抱着侥幸心理

    对于生产环境会出现,测试环境不会出现的一些问题,千万不要抱着侥幸心理。

  16. 白名单内测

    重大的变更要做白名单内测,保证正式环境也能有真实的用户去测试。

  17. 留后手

    万事要留后手,并且做响应的应急文档操作手册。


总结

​ 当服务出现问题时,我们应该及时发现并解决问题,并且在设计系统时考虑到容错和恢复能力,以保证系统的稳定性和可靠性。


写在最后

感谢您的支持和鼓励! 😊🙏

如果大家对相关文章感兴趣,可以关注公众号"架构殿堂",会持续更新AIGC,java基础面试题, netty, spring boot, spring cloud等系列文章,一系列干货随时送达!文章来源地址https://www.toymoban.com/news/detail-713017.html

到了这里,关于语雀服务器P0事故的一些启发的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【教程】一些服务器常见漏洞的修复方法,亲测超详细

    目录 漏洞名称解释 Apache漏洞——卸载Apache2(可能不适用于大家) CVE-2020-15778——禁用SCP CVE-2020-15778、CVE-2016-2183、CVE-2021-41617、CVE-2014-0160、CVE-2020-12062、CVE-2021-28041、CVE-2016-6515——升级openssl和openssh 安装编译环境所需的工具 然后编译升级openssl 之后编译升级openssh CVE-2018-1905

    2024年02月08日
    浏览(48)
  • ChirpStack 部署教程及一些遇到的坑(LoRaWAN 服务器)

    目录 1.前言 2.Chirpstack介绍 3.Chirpstack部署 5. 访问 Chirpstack 的 Swagger 接口 6.部署ChirpStack的一些坑         6.1服务器端口没开         6.2 本地平台获取设备上报信息         6.3 swagger文档的授权         领导安排了个工作,需要用ChirpStack,将水表的数据放到服务器上,再从

    2024年02月02日
    浏览(53)
  • 单体架构、微服务和无服务器架构

    1*P4wnfpWbQ0GdnS6mvdzeRA.png 在这篇文章中,我将演示在决定使用单体架构、微服务架构和无服务器架构时的权衡的简化心智模型。目标是突显每种风格的固有优势和缺陷,并提供关于何时选择哪种架构风格的指导。 对于小团队或项目来说是理想的入门架构。它简单易上手,通常在

    2024年01月21日
    浏览(47)
  • 游戏服务器搭建过程中Maven多模块编译遇到的一些问题

             目录 1、多模块的创建 1.1 父模块的创建  1.2 删除垃圾文件 1.3 修改pom.xml 1.4 创建子模块继承 2、子模块之间的互相引用 3、多个模块间版本的管理 3.1 dependencis 3.2 dependencyManagement 4、依赖执行 5、在Spring Boot项目中加载依赖项目的组件有几种常用的方法 5.1. 使用@

    2024年02月15日
    浏览(35)
  • office 365家庭版无法激活,提示遇到一些临时服务器问题,已解决

    office 365家庭版购买后始终无法激活,总是提示“很抱歉,遇到一些临时服务器问题”。 联系微信技术支持电话了半个小时才解决: 打开IE浏览器的 “internet选项” (360浏览器需从菜单中选择“工具”=》“internet选项”), 然后在“连接”=》“局域网设置”页面中去掉所有

    2024年02月05日
    浏览(70)
  • 手把手写C++服务器(39):《Effective C++》读后感和一些思考

    本系列文章导航: 手把手写C++服务器(0):专栏文章-汇总导航【更新中】    前言 : 《Effiective C++》是我最喜欢的书籍之一(或许没有之一),里面详细介绍了改善程序设计的55种具体做法,对于C++程序员来说是一笔宝贵的财富,同时也是面试的高频考点,值得每隔一段时间就

    2024年02月05日
    浏览(34)
  • 北斗GPS卫星时钟服务器(NTP服务器)架构方法步骤

    北斗GPS卫星时钟服务器(NTP服务器)架构方法步骤 北斗GPS卫星时钟服务器(NTP服务器)架构方法步骤 京准电子科技官微——ahjzsz 一、施工简介: 应贵司要求,我司提供卫星时钟系统(NTP时钟同步服务器),为解决全网络计算机系统时间同步问题;  二、 施工须知: 1 . 使

    2024年01月16日
    浏览(41)
  • 【ngrok】自己服务器简单搭建钉钉ngrok和一些免费内网穿透

    如没有自己的服务器,可以购买阿里云的这个,99一年3M带宽不限流量,不限流量这点我真的是大爱啊! 我看好多ngrok都是10元一个月,而且就给一个端口,自己搭建可以用无数端口关键还可以自己玩个服务器!美滋滋! https://github.com/fatedier/frp/releases 执行以下命令,下载frp工

    2024年01月17日
    浏览(44)
  • 驱动程序开发:FTP服务器和OpenSSH的移植与搭建、以及一些笔记

      将 ALPHA 开发板作为一个小型的 FTP 服务器,这样我们就可以通过 FileZilla 软件直接在开发板和 windows 之间通过网络进行文件互传。而在开发板上搭建 FTP 服务器很简单,就是 vsftpd 的移植。   FileZilla官网下载,下载地址如下:点击链接。步骤省略。   现在需要在自己

    2024年02月09日
    浏览(40)
  • 服务器的架构有哪些

    服务器的架构有哪些 1、单体架构 软件设计经典的3层模型是表现层,业务逻辑层,数据访问层。典型的单体架构就是将所有的业务场景的表现层,业务逻辑层,数据访问层放在一个工程中最终经过编译,打包,部署在一台服务器上。 2、垂直架构 垂直架构是将一个大项目,按

    2024年02月07日
    浏览(66)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包