如何构建高可靠性互联网应用?或许这里有个答案

这篇具有很好参考价值的文章主要介绍了如何构建高可靠性互联网应用?或许这里有个答案。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

如今,如何保证互联网平台服务的可靠性和稳定性成为整个互联网行业面临的难题。谷歌提出的SRE(网站可靠性,本意是软件可靠性工程)方法被业界奉为解决这一难题的经典。

SRE理念是近年来运维领域最重要的变革,影响广泛而深远。从SRE的核心理念出发,运维都是围绕可靠性(Reliability)展开的。“质量、成本、效率、安全”是运维不可或缺的4个要素,其中质量尤为重要,而质量的核心就是可用性,可用性的核心依赖就是可靠性,真所谓殊途同归。

Google最早在2003年就提出了SRE这个概念,历经了近20年的发展,SRE作为保障信息系统平稳运行的重要措施,已逐步在大型互联网公司落地,众多国民级应用背后都有SRE的身影。现有的中文SRE著作几乎都是引进自国外的译著,鲜有中国工程师结合自己的最佳实践来指导大家如何构建SRE工程。

如何构建高可靠性互联网应用?或许这里有个答案

今天推荐一本**《SRE原理与实践:构建高可靠性互联网应用》**,作者是虎牙科技的SRE架构师张观石,他基于20余年的架构、研发和运维经验,用4年时间反复打磨,代表中国的工程师总结了中国互联网企业的SRE方法和经验。书籍得到了中国SRE奠基人、虎牙科技CEO以及华为、腾讯、阿里、B站、亚马逊等企业的10余位技术专家高度评价并一致推荐。

主要内容

本书尝试系统性地讨论如何建立互联网软件可靠性工程体系。

  • 首先,本书参考传统可靠性工程及软件可靠性工程体系,把传统可靠性工程中的“六性”(可靠性、维修性、测试性、保障性、安全性、环境适应性)转化为互联网软件可靠性工程中的六种能力(可靠性设计能力、观测能力、修复能力、保障能力、反脆弱能力、管理能力)。

  • 然后,本书通过这六种能力把可靠性相关的工作组织起来,比较清晰地描绘出互联网软件可靠性工程的体系全貌,并将六种能力对应到六个工作方向上。

  • 最后,本书深入探讨了各种能力如何建设、如何度量、如何改进等。本书也较为系统地总结了互联网软件可靠性工程的发展过程,参考了可靠性工程方法来讨论当前行业面临的突出问题,初步分析、总结了各种故障的规律,并提出了“可靠性是和故障作斗争”的观点。

【主要特点】

本书具有以下几个特点。

  • 整体性。本书较完整地介绍了互联网软件可靠性工程体系,并结合互联网平台软件的技术特点、业务特点,把互联网SRE相关工作总结为六种能力,帮助工程师快速理解SRE体系全貌。
  • 重视度量。书中对各种能力都进行了定性与定量的评估。度量才能真正了解现状,才能推动改进,才能见到改进的效果。
  • 从原理出发。本书较为全面地总结了互联网平台软件的故障特点和故障规律。研究规律是我们学习SRE相关工作的必经之路。通过研究规律,我们不仅可以积累经验,而且能更深刻地了解故障的本质。
  • 本书在写作时引用了大量虎牙直播的实践案例,这些案例对一些中小型平台建设应该有一定的参考价值。

【读者对象】

  • 互联网行业运维工程师、研发工程师、架构师
  • 关注软件系统可靠性的管理者
  • 关注软件可靠性的研究者、计算机专业师生等

如何构建高可靠性互联网应用?或许这里有个答案

文末福利

本期福利送出《SRE原理与实践:构建高可靠性互联网应用》4本,详见 我的社区活动,或点击文章下方的微信公众号名片,guan注并回复【高可用】即可参与活动。
如何构建高可靠性互联网应用?或许这里有个答案文章来源地址https://www.toymoban.com/news/detail-417136.html

到了这里,关于如何构建高可靠性互联网应用?或许这里有个答案的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • TCP如何保证传输可靠性?

    文章参考: 《网络是怎样连接的》:https://book.douban.com/subject/26941639/ 《图解网络》:https://www.xiaolincoding.com/network/ 在开始阅读该博客之前,先要好好了解一下 TCP报文头部 到底有那些信息,阅读后续内容时有任何模糊的地方都可以回来这里 查看梳理 ,接下来我来解释一下:

    2024年02月20日
    浏览(48)
  • 如何保证消息的可靠性(面试题)

    面试题 :Rebbitmq怎么保证消息的可靠性 消费者在接收到消息后,默认情况下RabbitMQ会自动确认消息(autoAck=true)。为保证消息可靠性,可以设置autoAck=false,使得消费者在处理完消息后手动发送确认(basicAck)。如果消费者在处理过程中发生异常或者未完成处理就终止运行,那

    2024年04月14日
    浏览(48)
  • 如何保证 RabbitMQ 的消息可靠性?

    项目开发中经常会使用消息队列来 完成异步处理、应用解耦、流量控制等功能 。虽然消息队列的出现解决了一些场景下的问题,但是同时也引出了一些问题,其中使用消息队列时如何保证消息的可靠性就是一个常见的问题。 如果在项目中遇到需要保证消息一定被消费的场景

    2024年02月07日
    浏览(49)
  • rabbitmq如何保证消息的可靠性

    RabbitMQ可以通过以下方式来保证消息的可靠性: 在发布消息时,可以设置消息的delivery mode为2,这样消息会被持久化存储在磁盘上,即使RabbitMQ服务器重启,消息也不会丢失。 可以创建持久化的队列,这样即使RabbitMQ服务器重启,队列也不会丢失。 在消费者端,可以 设置手动

    2024年01月23日
    浏览(54)
  • TCP如何保证传输的可靠性

    TCP采用哪些方式保证数据传输可靠? 答: 1、数据分块:将数据包划分为合适的大小,这样更能适应网络的限制,如果数据发生错误或丢失,只要重传有问题的部分即可,减少重传的数据量。方便进行流量和拥塞控制。 2、数据包有序号,可以根据序号对失序的数据包进行重

    2024年04月11日
    浏览(39)
  • TCP如何保证服务的可靠性

    TCP保证可靠性一般有以下几种方法: (1) 确认应答 :ACK和序列号 (2) 超时重传 :发送数据包在一定的时间周期内没有收到相应的ACK,等待一定的时间,超时之后就认为这个数据包丢失,就会重新发送 (3) 流量控制 :控制发送方发送窗口的大小来实现流量控制 (4) 拥

    2024年02月15日
    浏览(41)
  • 大流量时代,如何规划系统流量提升可靠性

    摘要: 本文主要是对《凤凰架构》的解读,讲述规划系统流量的几种方式。 本文分享自华为云社区《大流量时代,如何规划系统流量提升可靠性》,作者:breakDawn 。 对系统流量进行规划, 要注意以下2个原则 尽可能减少单点部件, 或者减少到达单点部件的流量或者作用 奥

    2024年02月01日
    浏览(56)
  • Kafka—工作流程、如何保证消息可靠性

    分布式事件流平台 。希望不仅仅是存储数据,还能够数据存储、数据分析、数据集成等功能。消息队列(把数据从一方发给另一方),消息生产好了但是消费方不一定准备好了(读写不一致),就需要一个中间商来存储信息,kafka就是中间商 架构图如下: 名称 解释 Broker 消

    2024年02月11日
    浏览(52)
  • 【HBZ分享】TCP可靠性传输如何保证的?

    ACK机制是发送方与接收方的一个相互确认 客户端向服务端发送连接请求,此时服务端要回馈给客户端ACK,以表示服务端接到了客户端请求,这是第一和的第二次握手 客户端接收到服务端响应后,同样也要回馈服务端的响应,告知服务端我收到了你的回馈,我们可以进行传输

    2024年02月10日
    浏览(35)
  • rabbitmq如何保证消息的可靠性传输(简述版本)?

    我需要从三点去考虑, 生产者弄丢了数据,生产者将消息发送的Exchange并且路由到队列 队列需要将消息给它持久化 消费者要成功消费队列中的消息 RabbitMQ提供了confirm机制,保证了消息消息发送的Exchange交换机,那么还提供了return机制,可以保证消息从exchange路由到队列中,如

    2024年02月13日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包