【Elasticsearch】索引恢复（recovery）流程梳理之副本分片数据恢复-Toy模板网

这篇具有很好参考价值的文章主要介绍了【Elasticsearch】索引恢复（recovery）流程梳理之副本分片数据恢复。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

replica shard重启具体流程

【Elasticsearch】索引恢复（recovery）流程梳理之副本分片数据恢复,elasticsearch,mybatis,大数据

replica shard node （generic threadpool）

也是因为应用新的集群状态触发recovery，进入index阶段
进入translog 阶段。先尝试重放本地的translog到global checkpoint
向primary shard发起start recovery的请求，请求包含replica的localCheckpoint+1。（如果第二步重放translog了，localCheckpoint自然也会增加）

primary shard node

如果开启了soft delete并且索引是7.4版本之后创建的（retention lease功能），则使用lucene index作为HistorySource，否则使用translog
判断是否可以根据seq no按条恢复数据而不是发送segment file，即跳过phase 1，判断需要满足以下条件（其实就是看能不能使用retention lease/translog回放）
- replica不是没有数据
- primary shard的retention lease或者translog（取决于history source）包含所有要recovery的数据，retention lease会判断soft delete保存的seq no 是否小于 request.startingSeqNo(replica 开始恢复的seq no)
- 对于retention lease，需要包含replica没有的数据，判断retentionLease.seqNo < request.startingSeqNo
执行phase 1——sendFileStep。有限速配置indices.recovery.max_bytes_per_sec
如果primary和replica的sync id, local checkpoint, maxSeqNo都相同则跳过phase1
对比primary和replica的segment file元数据，发送所有replica缺失或者不同的segment file
同步发送给replica请求，让他启动engine准备接收translog
将replica shard加入replication group，replica将接收到后续的replication request，并确保在下一步中采样最大序列号之前执行此操作，以确保在phase 2发送所有seq No直到 maxSeqNo 的所有文档，保证replica不缺数据。
执行phase 2。如果是retention lease则直接从Lucene查询出需要发送的doc，如果是translog则获取一个translog的快照，将数据分批发送到replica

Replica shard node

replica 会接收primary的segment file，translog，打开engine的请求
最后进入进入FINALIZE阶段。执行refresh

一致性问题

因为replica恢复时的phase2阶段既有新写入的replication，也有回放的doc，此时如果针对doc 1有两个更新操作，第一个在回放的操作中，第二个在新的replication，然后replica先执行了replication再执行回放会导致数据不一致，ES通过校验version来解决这个问题，第一个操作的version小于第二个操作，因此即使第一个操作后到达也会被拒绝。文章来源地址https://www.toymoban.com/news/detail-808935.html

到了这里，关于【Elasticsearch】索引恢复（recovery）流程梳理之副本分片数据恢复的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！