Zookeeper 脑裂问题

这篇具有很好参考价值的文章主要介绍了Zookeeper 脑裂问题。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

什么是脑裂?

脑裂(split-brain)就是“大脑分裂”,也就是本来一个“大脑”被拆分了两个或多个“大脑”,如果一个人有多个大脑,并且相互独立的话,那么会导致人体“手舞足蹈”,“不听使唤”。
脑裂通常会出现在集群环境中,比如ElasticSearch、Zookeeper集群,而这些集群环境有一个统一的特点,就是它们有一个大脑,比如ElasticSearch集群中有Master节点,Zookeeper集群中有Leader节点。
**官方定义:**当一个集群的不同部分在同一时间都认为自己是活动的时候,我们就可以将这个现象称为脑裂症状。通俗的说,就是比如当你的 cluster 里面有两个结点,它们都知道在这个 cluster 里需要选举出一个 master。那么当它们两之间的通信完全没有问题的时候,就会达成共识,选出其中一个作为 master。但是如果它们之间的通信出了问题,那么两个结点都会觉得现在没有 master,所以每个都把自己选举成 master。于是 cluster 里面就会有两个 master。
在脑裂发生时,集群中的每个子集可能都会继续工作,执行读取和写入操作。这可能会导致数据冲突和不一致性。例如,如果一个数据库集群发生脑裂,不同的子集可能会同时接收写入请求,导致数据在不同子集中不同步。当脑裂问题解决后,这些不同的数据可能会导致数据合并困难,进而导致数据损坏或数据丢失。

集群脑裂产生的原因?

一般集群脑裂都是由以下三个原因产生的

  1. 网络分区: 当集群中的节点之间的网络连接出现问题,导致某些节点无法与其他节点通信。例如高可用服务器各节点之间心跳线链路发生故障,高可用服务器上开启了iptables防火墙阻挡了心跳消息传输等等
  2. 节点故障: 集群中的某些节点可能因为硬件故障、操作系统问题或其他原因而失去响应,导致其他节点认为它们已经不再可用。例如网卡及相关驱动坏了,ip配置及冲突问题(网卡直连)因心跳线间连接的设备故障(网卡及交换机)
  3. 通信问题: 由于通信协议、时钟同步等问题,节点可能无法准确地识别其他节点的状态,从而导致混淆。

那么如何判断集群是否发生了脑裂?

在分布式系统中这些都是有监控者来判断判断一个节点是否down 掉的,但是监控者也很难判定其他的节点的状态,唯一一个可靠的途径就是心跳,Zookeeper也是使用心跳来判断客户端是否仍然活着。
整体运转流程如下

  1. 每个节点都尝试注册一个象征leader的临时节点,其他没有注册成功的则成为follower,并且通过watch机制监控着leader所创建的临时节点
  2. Zookeeper通过内部心跳机制来确定leader的状态,一旦leader出现意外Zookeeper能很快获悉并且通知其他的follower,其他flower在之后作出相关反应,这样就完成了一个切换,这种模式也是比较通用的模式,基本大部分都是这样实现的。
  3. 但是这里面有个很严重的问题,如果注意不到会导致短暂的时间内系统出现脑裂,因为心跳出现超时可能是leader挂了,但是也可能是zookeeper节点之间网络出现了问题,导致leader假死的情况,leader其实并未死掉,但是与ZooKeeper之间的网络出现问题导致Zookeeper认为其挂掉了,然后通知其他节点进行切换。
  4. 这样follower中就有一个成为了leader,但是原本的leader并未死掉,这时候client也获得leader切换的消息,但是仍然会有一些延时,zookeeper需要通讯需要一个一个通知,这时候整个系统就很混乱可能有一部分client已经通知到了连接到新的leader上去了,有的client仍然连接在老的leader上
  5. 如果同时有两个client需要对leader的同一个数据更新,并且刚好这两个client此刻分别连接在新老的leader上,就会出现很严重问题。

这里做下小总结:
假死:由于心跳超时(网络原因导致的)认为leader死了,但其实leader还存活着。
脑裂:由于假死会发起新的leader选举,选举出一个新的leader,但旧的leader网络又通了,导致出现了两个leader ,有的客户端连接到老的leader,而有的客户端则连接到新的leader。

如何解决脑裂问题?

过半机制

在领导者选举的过程中,如果某台zkServer获得了超过半数的选票,则此zkServer就可以成为Leader了。举个简单的例子:如果现在集群中有5台zkServer,那么half=5/2=2,那么也就是说,领导者选举的过程中至少要有三台zkServer投了同一个zkServer,才会符合过半机制,才能选出来一个Leader。

那zookeeper过半机制中为什么是大于,而不是大于等于?
这是为了减少脑裂的概率,假设现在有一个由6台zkServer所组成的一个集群,部署在了两个机房,每个机房都有3台zkServer,那么如果机房之间的网络断了之后,两个机房内的zkServer还是可以相互通信的,如果不考虑过半机制,那么就会出现每个机房内部都将选出一个Leader。

Quornums机制

即只有集群中超过半数节点投票才能选举出Leader。这样的方式可以确保leader的唯一性,要么选出唯一的一个leader, 要么选举失败。这是zookeeper防止"脑裂"默认采用的方法。
在ZooKeeper中Quorums有2个作用:

  • 集群中最少的节点数用来选举Leader保证集群可用:通知客户端数据已经安全保存前集群中最少数量的节点数已经保存了该数据。一旦这些节点保存了该数据,客户端将被通知已经安全保存了,可以继续其他任务。而集群中剩余的节点将会最终也保存了该数据。
  • 假设某个leader假死,其余的followers选举出了一个新的leader。这时,旧的leader复活并且仍然认为自己是leader,这个时候它向其他followers发出写请求也是会被拒绝的。因为每当新leader产生时,会生成一个epoch,这个epoch是递增的,followers如果确认了新的leader存在,知道其epoch,就会拒绝epoch小于现任leader epoch的所有请求。 那有没有follower不知道新的leader存在呢,有可能,但肯定不是大多数,否则新leader无法产生。Zookeeper的写也遵循quorum机制,因此,得不到大多数支持的写是无效的,旧leader即使各种认为自己是leader,依然没有什么作用。

通过Quorums机制来防止脑裂和假死,当leader挂掉之后,可以重新选举出新的leader节点使整个集群达成一致;当出现假死现象时,通过epoch大小来拒绝旧的leader发起的请求,在前面也已经讲到过,这个时候,重新恢复通信的老的leader节点会进入恢复模式,与新的leader节点做数据同步。不过这个如果旧的leader处理了数据,就会出现数据丢失的情况。

适当的超时设置

ZooKeeper 使用会话(Session)来管理客户端和服务器之间的连接,设置适当的会话超时时间可以减少脑裂的影响。较短的会话超时时间可以更快地检测到节点失效,从而减少不一致性。

采用Redundant communications (冗余通信)方式

集群中采用多种通信方式,防止一种通信方式失效导致集群中的节点无法通信。

网络配置优化

确保集群中的节点之间的网络连接稳定,避免分区和网络延迟。优化网络配置可以减少网络问题引发的脑裂。

启用磁盘锁

在 ZooKeeper 中,磁盘锁(Disk Lock)是一种额外的安全措施,用于防止脑裂问题。磁盘锁可以在主节点选举时帮助确保只有一个节点被选为主节点,从而降低脑裂风险。启用磁盘锁需要进行一些特定的配置和步骤。
以下是启用磁盘锁的一般步骤:

  1. 配置数据目录: 首先,您需要为每个 ZooKeeper 节点配置一个数据目录(dataDir)。数据目录是节点用于存储数据和元数据的位置。确保您的配置文件中已经正确设置了数据目录。
  2. 配置磁盘锁目录: 在 ZooKeeper 配置文件中,设置一个磁盘锁目录(dataLogDir)。这个目录将用于存储磁盘锁的文件。
  3. 启用磁盘锁: 在 ZooKeeper 的配置文件中,设置 syncEnabled 选项为 true。这将启用磁盘锁机制。
  4. 配置自动清理: 您还可以配置自动清理磁盘锁的选项,以便在主节点意外失效时,其他节点能够顺利选出新的主节点。具体配置可能因 ZooKeeper 版本而异,但通常会涉及到设置一些时间间隔。
  5. 重启 ZooKeeper 节点: 在配置文件修改完成后,您需要重启所有的 ZooKeeper 节点,以使配置生效。

磁盘锁的原理是通过将选举过程的相关信息写入磁盘锁文件,其他节点可以检查这些文件以决定是否进行选举。这在一定程度上增加了选举的稳定性,从而降低了脑裂风险。
请注意,虽然启用磁盘锁可以增加系统的稳定性,但它也会引入一些额外的磁盘 I/O 操作,可能会对性能产生一些影响。因此,在启用磁盘锁之前,建议您仔细评估您的系统需求和性能预期。
尽管磁盘锁可以确保选举信息写入磁盘,但如果出现写入延迟或错误,节点之间的信息同步可能会受到影响,可能导致脑裂。

参考文章

HA高可用集群中”脑裂”问题解决 - 运维总结 - 散尽浮华 - 博客园
Zookeeper集群”脑裂”问题 - 运维总结 - 散尽浮华 - 博客园文章来源地址https://www.toymoban.com/news/detail-677437.html

到了这里,关于Zookeeper 脑裂问题的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 分布式协调组件Zookeeper

    ZooKeeper 是⼀种 分布式协调组件 ,用于管理大型主机。 在分布式环境中协调和管理服务是一个复杂的过程 。ZooKeeper 通过其简单的架构和 API 解决了这个问题。ZooKeeper 允许开发人员专注于核心应用程序逻辑,而不必担心应用程序的分布式特性。 分布式协调组件 在分布式系统

    2024年02月13日
    浏览(40)
  • Zookeeper实现分布式锁

    ZooKeeper是一个分布式协调服务,其中提供的序列化、持久化、有层次的目录结构使得它非常适合用于实现分布式锁。在ZooKeeper中,分布式锁通常通过临时有序节点实现。以下是ZooKeeper分布式锁的详细介绍:  实现方式: 临时有序节点: 当一个客户端需要获取锁时,它在ZooK

    2024年02月02日
    浏览(56)
  • ZooKeeper的分布式锁

    ZooKeeper的分布式锁机制主要利用ZooKeeper的节点特性,通过创建和删除节点来实现锁的控制。 实现步骤: 创建锁节点:当一个进程需要访问共享资源时,它会在ZooKeeper中创建一个唯一的临时顺序节点作为锁。 尝试获取锁:进程会查看当前所有的锁节点,检查自己创建的节点是

    2024年04月22日
    浏览(38)
  • 分布式锁解决方案_Zookeeper实现分布式锁

    提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 分布式锁解决方案_Zookeeper实现分布式锁 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 提示:这里可以添加本文要记录的大概内容: Zookeeper 是一个开源的分布式协调服务,它

    2024年02月03日
    浏览(40)
  • 【分布式技术】注册中心zookeeper

    目录 一、ZooKeeper是什么 二、ZooKeeper的工作机制 三、ZooKeeper特点 四、ZooKeeper数据结构 五、ZooKeeper应用场景 ●统一命名服务 ●统一配置管理 ●统一集群管理 ●服务器动态上下线 ●软负载均衡 六、ZooKeeper的选举机制 七、实操部署ZooKeeper集群 步骤一:先部署java环境 步骤二:

    2024年01月23日
    浏览(40)
  • 使用ZooKeeper实现分布式锁

    目录 引言 1. ZooKeeper简介 2. 分布式锁实现原理 3. 分布式锁实现步骤 步骤一:创建ZooKeeper客户端 步骤二:创建分布式锁类 步骤三:使用分布式锁 4. 总结 在分布式系统中,实现分布式锁是一项常见的任务,可以用于保证同一时间只有一个客户端可以访问共享资源,从而避免竞

    2024年02月21日
    浏览(48)
  • 分布式【Zookeeper ZAB协议】

    1.1 什么是Zab协议? Zab协议的全称是 Zookeeper Atomic Broadcast (Zookeeper原子广播)。 Zookeeper 是通过 Zab 协议来保证分布式事务的最终一致性 。 Zab协议是为分布式协调服务Zookeeper专门设计的一种 支持崩溃恢复 的 原子广播协议 ,是Zookeeper保证数据一致性的核心算法。Zab借鉴了Pa

    2024年02月03日
    浏览(42)
  • 基于zookeeper实现分布式锁

    目录 zookeeper知识点复习 相关概念 java客户端操作 实现思路分析  基本实现 初始化链接 代码落地  优化:性能优化  实现阻塞锁 监听实现阻塞锁 优化:可重入锁 zk分布式锁小结  Zookeeper(业界简称zk)是一种提供配置管理、分布式协同以及命名的中心化服务,这些提供的 功

    2024年02月02日
    浏览(59)
  • 4、Zookeeper分布式安装部署

    1、分布式安装部署 1)集群规划 在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。 服务器hadoop102 服务器hadoop103 服务器hadoop104 Zookeeper Zookeeper Zookeeper Zookeeper 2)解压安装 (1)解压Zookeeper安装包到/opt/module/目录下  (2)修改/opt/module/apache-zookeeper-3.5.7-bin名称为zookeeper 3)配

    2024年02月12日
    浏览(48)
  • zookeeper —— 分布式服务协调框架

    Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。 Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已

    2024年02月07日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包