Redis 高频面试题 2023 最新版-Toy模板网

这篇具有很好参考价值的文章主要介绍了Redis 高频面试题 2023 最新版。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Redis 高频面试题 2023 最新版

一、Redis缓存相关

1. 什么是缓存穿透？如何解决

是什么
缓存穿透就是根据某条件查询一个数据，首先进入到redis中进行查询，redis中没有该数据时进入到数据库中查询，但是在数据库中也没有查到该数据，这个时候数据库直接将没有查到数据这一结果返回，而没有将它缓存到redis中，导致每次按照该条件查询都会进入到数据库中查询，这，就是缓存穿透；

穿透过Redis，去数据库中查数据

Redis 高频面试题 2023 最新版,面试题汇总,redis,数据库,缓存
解决方案一：
缓存空数据，按照某一条件查询的数据为空，将这个结果缓存到redis中，这样下次来查询进入到redis就能够查到该数据；
缺点：可能会出现数据不一致问题，当数据库中的值更新时，redis中的数据可能没有进行更新；

解决方案二：

根据某条件查询信息时，先去布隆过滤器中查询，如果布隆过滤器中存在该数据，则往下走进入redis中去查询数据，如果布隆过滤器中没有值则直接返回；
redis中如果能够查询得到结果，则返回结果，查询不到进入数据库中进行查询；
数据库查询到结果并返回，而且会将结果缓存在Redis中一份；

Redis 高频面试题 2023 最新版,面试题汇总,redis,数据库,缓存

解释说明：

布隆过滤器

缓存热点数据时，需要向布隆过滤器添加率数据；
布隆过滤器的主要作用：拦截不存在的数据；

布隆过滤器的实现

bitmap(位图)： 相当于是以一个（bit）为单位的数组，数组中每个单元只能存储二进制数0或1；
布隆过滤器能够检索一个元素是否存在这个集合中

存储数据到bitmap中：
Redis 高频面试题 2023 最新版,面试题汇总,redis,数据库,缓存

误判问题
到bitmap中查询某值是否存在，经过三次hash函数计算出结果，发现在bitmap中有存有了值，布隆过滤器便认为已经存储过该值，当你实际上是没存储过的；

Redis 高频面试题 2023 最新版,面试题汇总,redis,数据库,缓存

误判率： 数组越小误判率越大，数组越大误判率就越小，但是同时带来了更多的内存消耗；无法避免，可以控制，一般控制在5%左右；

布隆过滤器的两种实现方案：

Redission
Guava

2. 什么是缓存击穿？如何解决

是什么
缓存击穿指的是给某个热点key设置了过期时间，当key过期的时候，恰好这个时间点对这个key有大量的并发请求，这些并发请求瞬间把DB给压垮

击穿的是谁？击穿的是数据库

Redis 高频面试题 2023 最新版,面试题汇总,redis,数据库,缓存

解决方案一：添加互斥锁（分布式锁）

线程1去Redis中查找数据，没有找到，此时线程二也在进行Redis查询数据，也没有找到
然后在此处添加互斥锁，这里假设线程1成功获取了互斥锁，然后他会去数据库中查数据并且将查询到的结果写入Redis中，完成这些操作才会释放同步锁；
而线程2获取互斥锁失败，会设置它休眠一段时间再去重新读取Redis中的数据，如果还没有在Redis中找到数据，它就会重复执行查数据、获取锁等操作，直到找到Redis中的数据为止；

此方案的优缺点：优点是保证了数据的强一致性，缺点是性能较差

Redis 高频面试题 2023 最新版,面试题汇总,redis,数据库,缓存

方案二：逻辑过期（不设置过期时间）

线程1去缓存中进行查询，发现逻辑时间已经过期，它就会去获取互斥锁，并去开启新线程；然后就会将这个过期的数据进行返回；
新开启的线程负责查询数据库重建缓存数据，并在写入缓存时重置逻辑过期时间，完成这些操作后才会释放锁；
此时线程三如果查询缓存发现数据逻辑时间已过期，会尝试去获取互斥锁，但线程1以拿到互斥锁，因此线程三获取互斥锁失败；但也会返回这个查询到的逻辑时间已过期的内容；
线程一、二完成了换成数据重建时，线程四刚好进来，就能够查询到正常的数据，并正常返回

优缺点： 优点是高可用，性能较优，但是无法保证数据的强一致性（过期数据会被返回）；

Redis 高频面试题 2023 最新版,面试题汇总,redis,数据库,缓存
保证了高可用，性能比较优，单不能保证数据的绝对一致性；

3. 什么是缓存雪崩？如何解决

缓存雪崩指的是在同一时间段内大量的缓存key同时失效或者Redis服务宕机，导致大量请求到达数据库，给数据库带来巨大的压力
Redis 高频面试题 2023 最新版,面试题汇总,redis,数据库,缓存

可能的原因：给key设置了相同的过期时间

解决方案：

给不同的key的过期时间设置随机值
利用Redis集群提高服务的可用性哨兵模式，集群模式
给缓存业务添加降级限流策略（可以借助nginx、spring cloud gateway完成，并且降级可作为系统的保底策略，适用于击穿、穿透、雪崩）
给业务添加多级缓存（结合Guava与Caffeine）

4. Redis作为缓存，mysql的数据如何与Redis进行同步呢？（双写一致性）

注意：千万、必须、一定要设置前提，先介绍自己的业务背景，是对一致性要求高，还是允许延迟一致，必须围绕业务背景来说

对双写一致性进行解释：当修改了数据库的数据同时也要更新缓存的数据，缓存和数据库的数据要保持一致；

复习一下读操作：缓存命中，直接返回；缓存未命中查询数据库，写入缓存，设定超时时间；
Redis 高频面试题 2023 最新版,面试题汇总,redis,数据库,缓存

写操作:延迟双删(需要了解并且掌握其大概流程，面试里面经常文到这个问题)

延迟双删操作在一定程度上解决了脏数据的问题，但是不能完全避免;
为什么会有延迟双删这个操作？
是因为在解决双写一致性问题时，需要考虑：是先删除缓存,再操作数据库？,还是先操作数据库，再删除缓存？，其实这两种操作都会有可能出现脏数据问题，且这个可能性比较高；
延迟双删为什么要删除两次缓存？

先删除缓存,再操作数据库

1.假设有1、2两个线程，缓存与数据库中都存着10；
2.线程1删除缓存中的数据10，此时线程2进来读取缓存，读取不到数据，并进入数据库中读取数据10；
3.线程2将数据库读取的数据10存入内存中然后执行结束，但此时线程1并未执行结束；
4.线程1继续往下执行，然后去修改数据库中的数据变为20；
5.此时你会发现，缓存中的数据是10，而数据库中的实际数据是20，出现了脏数据问题；

先操作数据库，再删除缓存

线程1查询缓存时查询不到数据，进入到数据库中读取10；
此时线程2更新数据库的值为20，并去执行删除缓存的操作，然后执行结束；
线程1因为读取到了10，且缓存中没有值，因此会将数据10存入缓存中；
此时靓仔的你会发现，又出现了脏数据问题；

延迟双删为什么要删除两次缓存？而且还需要延时呢？

删除两次的原因想必大家看完上面两种操作都能想到了，因为上面两种操作都会让缓存有可能与数据库中的数据不一致，因此需要将缓存中的数据进行删除，降低脏数据的出现；
而延时问题是因为要等数据库中的数据完全修改完毕之后再将数据同步到缓存中；因为数据库是主从分离的，所以我们需要一些是将让它将数据从主节点同步到从节点，所以需要延时；而这段时间比较难把控，也可能会出现脏数据的问题；因此延迟双删也并不能保证数据的强一致性,它只是在极大程度上控制了出现脏数据的风险，但不能绝对的避免脏数据；

那有没有方法保证数据的强一致性呢？用锁的机制可以实现，下面介绍

加锁实现双写一致性：
一般访问数据库的操作都是读多写少，我们可以通过共享锁与排他锁实现双写一致性

共享锁：也叫做读锁，加锁之后其它线程可以共享读操作
排他锁：也叫写锁，加锁之后，阻塞其他线程读写操作

用锁实现双写一致性的图示：

读操作代码示例:

写锁示例代码：
通过读写锁虽然实现了数据的强一致性，但是不可避免的性能比较低

不过目前市面上大多数的业务逻辑上都是允许数据延迟一致性的，这种实现数据延迟一致性的解决方案就较多：

异步通知实现双写一致保证数据最终一致性：

Redis 高频面试题 2023 最新版,面试题汇总,redis,数据库,缓存

基于Canal的异步通知：

此方法的有点是对于业务代码几乎是零侵入！

二进制日志（BINLOG）记录了所有的DDL与DML语句，但不包括（SELECT、SHOW）语句。

面试时的回答：

强一致性：

面试官：redis做为缓存，mysql的数据如何与redis进行同步呢？（双写一致性）

候选人：嗯！就说我最近做的这个项目，里面有xxxx（根据自己的简历上写）的功能，需要让数据库与redis高度保持一致，因为要求时效性比较高，我们当时采用的读写锁保证的强一致性。

我们采用的是redisson实现的读写锁，在读的时候添加共享锁，可以保证读读不互斥，读写互斥。当我们更新数据的时候，添加排他锁，它是读写，读写都互斥，这样就能保证在写数据的同时是不会让其他线程读数据的，避免了脏数据。这里面需要注意的是读方法和写方法上需要使用同一把锁才行。

面试官：那这个排他锁是如何保证读写、读读互斥的呢？

候选人：其实排他锁底层使用也是setnx，保证了同时只能有一个线程操作锁住的方法

面试官：你听说过延时双删吗？为什么不用它呢？

候选人：延迟双删，如果是写操作，我们先把缓存中的数据删除，然后更新数据库，最后再延时删除缓存中的数据，其中这个延时多久不太好确定，在延时的过程中可能会出现脏数据，并不能保证强一致性，所以没有采用它。

名词解释：setnx

setnx是Redis的一个命令，用于设置一个key的值，当且仅当该key不存在时。如果该key已存在，则该命令不会执行任何操作，返回0。如果该key不存在，则会设置该key的value，并返回1。

setnx的语法为：

SETNX key value

其中，key是要设置的键名，value是要设置的键值。
setnx的常用场景是分布式锁的实现，可以通过setnx来尝试获取锁，如果获取成功则可以执行相应的操作，如果获取失败则需要等待或者重试。

延时一致性：

面试官：redis做为缓存，mysql的数据如何与redis进行同步呢？（双写一致性）

候选人：嗯！就说我最近做的这个项目，里面有xxxx（根据自己的简历上写）的功能，数据同步可以有一定的延时（符合大部分业务）

我们当时采用的阿里的canal组件实现数据同步：不需要更改业务代码，部署一个canal服务。canal服务把自己伪装成mysql的一个从节点，当mysql数据更新以后，canal会读取binlog数据，然后在通过canal的客户端获取到数据，更新缓存即可。

5. Redis作为缓存，数据的持久化是怎么做的呢？

RDB与AOF进行实现的。

前置需要了解的知识：

RDB是什么:

RDB全称 Redis Database Backup file（Redis数据备份文件），也被叫做Redis数据快照。简单来说就是把内存中的所有数据都记录到磁盘中。当Redis实例故障重启后，从磁盘读取快照文件，回复数据。执行命令如下：

Redis内部有触发RDB的机制，可以在redis.conf文件中找到，格式如下：

RDB的执行原理：

bgsave开始时会fork（复制）主进程得到子进程，子进程共享主进程的内存数据。完成fork后读取内存数据并写入RDB文件中。（对RDB文件的操作是异步的，对主进程几乎没有阻塞）

页表的作用：
1.Redis的主进程操作数据需要到真实的物理内存中去操作，但是Linux系统不能直接操作实际物理内存的数据；
2.但是操作系统会给每个进程分配虚拟内存，Redis的主进程只能操作虚拟内存；
3.操作系统会维护虚拟内存与物理内存的映射关系表，这个表被成为页表；
4.Redis主进程对虚拟内存进行操作，而虚拟内存根据页表的映射关联到物理内存真正存储数据的位置，然后实现对物理内存数据的读与写操作了；

主进程与子进程是如何同步数据的:
1.当我们执行bgsave时，会开启一个子进程去执行读取内存数据并写入RDB文件中；这个子进程就是fork（克隆）主进程得到的；
2.fork主进程得到的子进程并不是对内存中数据进行拷贝，而是仅仅对页表中的数据进行拷贝，也就是说把虚拟内存与物理内存的映射关系拷贝给了子进程。这时子进程就拥有了与主进程相同的页表，因此子进程一定能够将数据映射到与主进程相同的物理内存区域，因此实现了子进程与主进程内存空间的共享
3.此时子进程就可以读取到物理内存中的数据，然后它能够把读取到的数据写入到物理磁盘中，这是一个新的RDB文件，写完后它会替换旧的RDB文件
注意：子进程拷贝主进程的页表速度是非常快的，纳秒级别的，因此阻塞的时间可以忽略不计;

引入一个问题：子进程在写RDB文件的过程中，主进程可以接收用户的请求，修改内存中的数据，此时可能会出现脏数据
为了避免该问题，fork底层采用了一种copy-on-write技术:
1.当子线程进行fork操作时，会将此时的物理内存中的数据标记为read-only（只读），任何一个进程只能够来读数据，而不能写数据；
2.假设此时用户真的在子进程写新的RDB文件时有写的请求给主进程，主进程会将物理内存中的数据拷贝一份出来,再去完成写操作；
3.一旦主进程完成了将拷贝出来的数据的写操作，此时读操作也会去读取这个拷贝出来的数据；而页表的映射关系也会映射到这个新的数据上；

什么是AOF：

AOF全称为Append Only File（追加文件）。Redis处理的每一个写命令都会记录在AOF文件，可以看做是命令日志文件。
AOF默认是关闭的，需要修改redis.conf配置文件来开启AOF：

RDB与AOF的对比：

RDB与AOF有各自的优点，如果对数据安全性要求较高，在实际开发中往往会结合两者来使用

	RDB	AOF
持久化方式	定时对整个内存做快照	记录每一次执行命令
数据完整性	不完整，两次备份之间会丢失	相对完整，取决于刷盘策略
文件大小	会有压缩，文件体积小	记录命令，文件体积很大
宕机回复速度	很快	慢
数据恢复优先级	低，因为数据完整性不如AOF	高，因为数据完整性更高
系统资源占用	高，大量CPU和内存消耗	低，主要是磁盘IO资源；但AOF重写时会占用大量CPU和内存资源
使用场景	可以容忍数分钟的数据丢失，追求更快的启动速度	对数据安全性要求较高的场景

面试时的回答参考：

面试官：redis做为缓存，数据的持久化是怎么做的？

候选人：在Redis中提供了两种数据持久化的方式：1、RDB 2、AOF

面试官：这两种持久化方式有什么区别呢？

候选人：RDB是一个快照文件，它是把redis内存存储的数据写到磁盘上，当redis实例宕机恢复数据的时候，方便从RDB的快照文件中恢复数据。

AOF的含义是追加文件，当redis操作写命令的时候，都会存储这个文件中，当redis实例宕机恢复数据的时候，会从这个文件中再次执行一遍命令来恢复数据

面试官：这两种方式，哪种恢复的比较快呢？

候选人：RDB因为是二进制文件，在保存的时候体积也是比较小的，它恢复的比较快，但是它有可能会丢数据，我们通常在项目中也会使用AOF来恢复数据，虽然AOF恢复的速度慢一些，但是它丢数据的风险要小很多，在AOF文件中可以设置刷盘策略，我们当时设置的就是每秒批量写入一次命令

6. 假如redis的key过期之后，会立即删除吗？（Redis的数据过期策略）

前置知识:

是什么：

Redis对数据设置数据的有效时间，数据过期后，就要将数据从内存删除掉。可以按照不同的规则进行删除，这种删除规则就被称之为数据的删除策略（数据过期策略）。在Redis中提供了两中数据的过期策略：惰性删除、定期删除

Redis数据删除策略-惰性删除：
设置该key的过期时间后，我们不去管它，当需要key时，我们在检查其是否过期，如果过期，我们就删除掉它，反之返回该key

优点：对CPU友好，只会在使用该key时才会进行过期检查，对于很多用不到的key不用浪费时间进行过期检查
缺点：对内存不友好，如果一个key已经过期，但是一直没有使用，那么该key就会一直存在在内存中，内存永远不会释放

Redis数据删除策略-定期删除：
定期删除：每隔一段时间，我们就对一些key进行检查，删除里面过期的key（从一定量的数据库中取出一定量的随机key进行检查，并删除其中的过期key）。

定期删除有两种模式：
1.SLOW模式是定时任务，执行频率默认为10hz，每次不超过25ms，以通过修改配置文件redis.conf的hz选项来调整这个次数
2.FAST模式执行频率不固定，但两次间隔不低于2ms，每次耗时不超过1ms

优点: 可以通过限制删除操作执行的时长和频率来减少删除操作对CPU的影响。另外定期删除，也能有效释放过期键占用的内存。
缺点: 难以确定删除操作执行的时长和频率。

Redis真正使用的过期删除策略：惰性删除 + 定期删除两种策略进行配合使用

面试时的回答：

7. 加入缓存过多，内存是有限的，内存被沾满了怎么办？（Redis的数据淘汰策略）

数据淘汰策略：当Redis中的内存不够用时，此时再向Redis中添加新的key，那么Redis就会按照某一种规则将内存中的数据删除掉，这种数据的删除规则被称之为内存的淘汰策略。

redis支持8种不同的策略来选择要删除的key；
1.noevication:不淘汰任何的key，但是内存满时不允许写入新数据，默认就是这种策略。
&volatile-ttl:对设置了TTL（过期时间）的key，会比较key的剩余TTL值，TTL越小越先被淘汰；
allkeys-random:对全体key，随机进行淘汰。
**volatile-random：**对设置了TTL的key，随机进行淘汰。
**allkeys-lru:**对全体key，基于LRU算法进行淘汰
**volatile-lru:**对设置了TTL的key，基于算法进行淘汰
**allkeys-lfu:**对全体key，基于LFU算法进行淘汰
**volatile-lfu:**对设置了TTL的key，基于LFU算法进行淘汰

``LRU(Least Rencently Used) 最近最少使用。用当前时间减去最后一次访问时间，这个值越大则淘汰优先级越高。**LFU(Least Frequently Used)**:最少频率使用。会统计每个key的访问频率，值越小淘汰优先级越高。

数据淘汰策略-使用建议：
1.优先使用allkeys-lru策略。充分利用LRU算法的优势，把最近最常访问的数据留在缓存中。如果业务有明显的冷热数据区分，建议使用。
2.如果业务中数据访问频率不大，没有明显冷热数据区分，建议使用allkeys-random，随机选择淘汰。
3.如果业务中有置顶的需求，可以使用volatile-lru策略，同时置顶数据不设置过期时间，这些数据就一直不被删除会淘汰其他设置过期时间的数据。
4.如果业务中有短时高频访问的数据，可以使用allkeys-lfu或者volatile-lfu策略。

关于数据淘汰策略其他的面试问题：

数据库有1000万条数据，Redis只能存20w数据，如何保证Redis中的数据都是热点数据？

使用allkeys-lru（挑选出最近最少使用的数据淘汰）淘汰策略，留下来的都是经常访问的热点数据。

Redis的内存用完了会发生什么？
主要看数据淘汰策略是什么？如果是默认配置的（noeviction），会直接报错

总结

1.Redis提供了8种不同的数据淘汰策略，默认是noeviction不删除任何数据，内存不足直接报错
2.LRU：最少最近使用。当用时间减去最后一次访问时间，这个值越大则淘汰优先级越高。
3.LFU：最少频率使用，会统计每个key的访问频率，值越小淘汰优先级越高。
平时开发过程中用得比较多的是allkeys-lru（结合自身业务场景）

二、分布式锁相关

1.Redis分布式锁是如何实现的？

前置知识:
Redis实现分布式锁主要利用Redis的setnx命令。setnx是SET if not exists（如果不存在，则set）的简写。

获取锁：

# 添加锁，NX是互斥，EX是设置超时时间
SET lock value NX EX 10

释放锁

#释放锁，删除即可
DEL key

redisson实现的分布式锁-执行流程

代码实现：
Redis 高频面试题 2023 最新版,面试题汇总,redis,数据库,缓存
代码实现实例：

重点：
1.watch dog给锁续期
2.抢不到锁的线程会尝试等待
3.lua脚本的作用主要是能够调用redis命令，保证多条命令执行的原子性

redisson实现的分布式锁-可重入
利用hash结构记录线程id和重入次数

Redis 高频面试题 2023 最新版,面试题汇总,redis,数据库,缓存

redisson实现的分布式锁-主从一致性

引入
1.redis中一个主节点有多个从节点；
2.当java线程获取锁通过主节点访问数据，主节点宕机了；
3.此时从节点会根据哨兵模式，将选出一个从节点作为主节点；
4.第二条线程又获取了锁，进入到新的主节点获取数据，这时出现了两个线程共享一把锁的问题

红锁:RedLock:不能只在一个redis实例上创建锁，应该是在多个redis实例上创建锁（n/2+1，也就是说加锁的节点需要大于节点数的一半以上）

面试回答:
redis分布式锁是如何实现的？

先按照自己简历上的业务进行描述分布式锁使用场景
当我们使用redisson实现的分布式锁，底层是setnx和lua脚本（保证原子性）

redisson实现分布式锁如何合理的控制锁的有效时长？

redisson的分布式锁中，提供了一个WatchDog(看门狗)，一个线程获取锁成功之后，WatchDog会给持有锁的线程续期（默认是每隔10秒续期一次）

Redisson的锁，可重入吗？
可重入，多个锁重入需要判断是否是当前线程，在redis中进行存储的时候用hsah结构，来存储线程信息与重入的次数

Redisson锁能够解决主从一致的问题吗？
不能解决，但是可以使用redisson提供的红锁来解决,不过缺点是性能太低,如果业务中非要保证数据的强一致性，建议采用zookeeper实现的分布式锁；

参考回答:

面试官：Redis分布式锁如何实现 ?
候选人：嗯，在redis中提供了一个命令setnx(SET if not exists)
由于redis的单线程的，用了命令之后，只能有一个客户端对某一个key设置值，在没有过期或删除key的时候是其他客户端是不能设置这个key的

面试官：好的，那你如何控制Redis实现分布式锁有效时长呢？
候选人：嗯，的确，redis的setnx指令不好控制这个问题，我们当时采用的redis的一个框架redisson实现的。
在redisson中需要手动加锁，并且可以控制锁的失效时间和等待时间，当锁住的一个业务还没有执行完成的时候，在redisson中引入了一个看门狗机制，就是说每隔一段时间就检查当前业务是否还持有锁，如果持有就增加加锁的持有时间，当业务执行完成之后需要使用释放锁就可以了
还有一个好处就是，在高并发下，一个业务有可能会执行很快，客户1持有锁的时候，客户2来了以后并不会马上拒绝，它会自旋不断尝试获取锁，如果客户1释放之后，客户2就可以马上持有锁，性能也得到了提升。

面试官：好的，redisson实现的分布式锁是可重入的吗？
候选人：嗯，是可以重入的。这样做是为了避免死锁的产生。这个重入其实在内部就是判断是否是当前线程持有的锁，如果是当前线程持有的锁就会计数，如果释放锁就会在计算上减一。在存储数据的时候采用的hash结构，大key可以按照自己的业务进行定制，其中小key是当前线程的唯一标识，value是当前线程重入的次数

面试官：redisson实现的分布式锁能解决主从一致性的问题吗
候选人：这个是不能的，比如，当线程1加锁成功后，master节点数据会异步复制到slave节点，此时当前持有Redis锁的master节点宕机，slave节点被提升为新的master节点，假如现在来了一个线程2，再次加锁，会在新的master节点上加锁成功，这个时候就会出现两个节点同时持有一把锁的问题。
我们可以利用redisson提供的红锁来解决这个问题，它的主要作用是，不能只在一个redis实例上创建锁，应该是在多个redis实例上创建锁，并且要求在大多数redis节点上都成功创建锁，红锁中要求是redis的节点数量要过半。这样就能避免线程1加锁成功后master节点宕机导致线程2成功加锁到新的master节点上的问题了。
但是，如果使用了红锁，因为需要同时在多个节点上都添加锁，性能就变的很低了，并且运维维护成本也非常高，所以，我们一般在项目中也不会直接使用红锁，并且官方也暂时废弃了这个红锁

面试官：好的，如果业务非要保证数据的强一致性，这个该怎么解决呢？
**候选人：**嗯~，redis本身就是支持高可用的，做到强一致性，就非常影响性能，所以，如果有强一致性要求高的业务，建议使用zookeeper实现的分布式锁，它是可以保证强一致性的。

三、集群相关

1 主从复制

前置知识

redis集群的方案

主从复制
哨兵模式
分片集群

2 哨兵模式

前置知识：

Redis提供了哨兵（Sentinel）机制来实现主从集群的自动故障恢复。哨兵的结构和作用如下：

1.监控：Sentinel会不断检查master和slave是否按照预期工作
2.自动故障恢复：如果master故障，Sentinel会将一个slave提升为master。当故障实例恢复后也会以新的master为主
3.通知：Sentinel充当Redis客户端的服务发现来源，当集群发生故障转移时，会将最新的消息推送给客户端（意思就是会将重新选举出来的master主节点告诉redis客户端）
哨兵服务状态检测实现原理
Sentinel基于心跳机制监测服务状态，每隔1秒向集群的每个实例发送ping命令：
1.主观下线：如果sentinel节点发现某实例未在规定时间响应，则认为该实例主观下线。
2.客观下线：若超过指定数量（quorum）的sentinel都认为该实例主观下线，则该实例客观下线。quorum值最好超过Sentinel实例数量的一半。
哨兵选主规则：
1.首先判断主与从节点断开时间长短，如超过指定值就排除该从节点
2.然后判断从节点的slave-prioity值，越小优先级越高
3.如果slave-prority一样，则判断slave节点的offset值，越大优先级越高
4.最后时判断slave节点的运行id大小，越小优先级越高。

redis集群(哨兵模式)脑裂
什么是脑裂：字面意思可以理解为大脑裂开了，有两个大脑；

在集群+哨兵模式下，主节点可能与从节点可能由于网络原因，在不同的网络分区，哨兵只能监测到从节点，监测不到主节点；
哨兵此时会在从节点中选举出一个主节点；但是老的主节点并没有挂掉，客户端正在正常的连接，这时候就有了两个主节点，就像分裂了两个大脑一样；

带来的问题：

客户端会继续往这个老的主节点中写入数据，但是新的节点目前无法同步数据，目前网络还存在着问题；
假如此时网络恢复了，哨兵会将这个老的主节点强制降为从节点，这时候被将为从节点的老的主节点会从新的主节点同步数据，它会把本身的数据给进行清空，但是在之前脑裂的过程中，客户端已经向这个老的主节点写入了数据；
这个就是脑裂问题带来的数据丢失的问题。

如何解决脑裂问题：

redis中有两个配置参数：
2.min-replicas-to-write 1 表示最少的salve节点为1个，这样的好处是客户端写入数据时，连接的主节点必须要有至少一个从节点，才能写入数据，脑裂问题中老的主节点一般是不会有从节点，避免向脑裂之后的老主节点发送数据的问题。
1.min-replicas-max-lag 5 表示数据复制和同步的延迟不能超过5秒；
如果不满足则拒绝客户端写入数据的问题；

面试回答
怎么保证redis的高可用

哨兵模式：实现主从集群的自动故障恢复（监控、自动故障恢复、通知）

你们使用的redis是单点还是集群，那种集群

主从（一主一从）+ 哨兵就可以了。单节点不超过10G内存，如果Redis内存不足则可以给不同服务分配独立的Redis从节点

redis集群脑裂，该怎么解决呢？

1.集群脑裂是由于主节点和从节点和sentine处于不同的网络分区，使得sentinel没有能够心跳感知主节点，所以通过选举的方式提升了一个从节点为主节点；
2.此时就存在了两个master，就像大脑分裂了一样，这样会导致客户端还是在老的主节点哪里写入数据，新节点无法同步数据
3.当网络恢复后，sentinel会将老的主节点降级成为从节点，这是再从新master同步数据，就会导致数据丢失
解决办法： 我们可以修改redis的配置，设置最少的从节点数量以及缩短主从数据同步的延迟时间，达不到要求，就可以避免大量的数据丢失。

参考

面试官：怎么保证Redis的高并发高可用
候选人：首先可以搭建主从集群，再加上使用redis中的哨兵模式，哨兵模式可以实现主从集群的自动故障恢复，里面就包含了对主从服务的监控、自动故障恢复、通知；如果master故障，Sentinel会将一个slave提升为master。当故障实例恢复后也以新的master为主；同时Sentinel也充当Redis客户端的服务发现来源，当集群发生故障转移时，会将最新信息推送给Redis的客户端，所以一般项目都会采用哨兵的模式来保证redis的高并发高可用

面试官：你们使用redis是单点还是集群，哪种集群
候选人：嗯！，我们当时使用的是主从（1主1从）加哨兵。一般单节点不超过10G内存，如果Redis内存不足则可以给不同服务分配独立的Redis主从节点。尽量不做分片集群。因为集群维护起来比较麻烦，并且集群之间的心跳检测和数据通信会消耗大量的网络带宽，也没有办法使用lua脚本和事务

面试官：redis集群脑裂，该怎么解决呢？
候选人：嗯！这个在项目很少见，不过脑裂的问题是这样的，我们现在用的是redis的哨兵模式集群的

有的时候由于网络等原因可能会出现脑裂的情况，就是说，由于redis master节点和redis salve节点和sentinel处于不同的网络分区，使得sentinel没有能够心跳感知到master，所以通过选举的方式提升了一个salve为master，这样就存在了两个master，就像大脑分裂了一样，这样会导致客户端还在old master那里写入数据，新节点无法同步数据，当网络恢复后，sentinel会将old master降为salve，这时再从新master同步数据，这会导致old master中的大量数据丢失。

关于解决的话，我记得在redis的配置中可以设置：第一可以设置最少的salve节点个数，比如设置至少要有一个从节点才能同步数据，第二个可以设置主从数据复制和同步的延迟时间，达不到要求就拒绝请求，就可以避免大量的数据丢失