ElasticSearch + Canal 开发千万级的实时搜索系统【转】-Toy模板网

这篇具有很好参考价值的文章主要介绍了ElasticSearch + Canal 开发千万级的实时搜索系统【转】。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

我们总结一下新搜索系统需要解决的几个问题：

海量请求。几百万的请求毫无压力，上千万上亿也要可以扛得住。
实时搜索。指的是当一个用户修改了其数据之后，另一个用户能实时地搜索到改用户。

海量请求。要扛得起海量的搜索请求，可以使用ElasticSearch来实现，它是在Lucene的基础上进行封装的一个开源项目，它将Lucene复杂的原理以及API封装起来，对外提供了一个易用的API接口。ElasticSearch现在已经广泛地被许多公司使用，其中包括：爱奇艺、百姓网、58到家等公司。

实时搜索。阿里有一个开源项目Canal，就是用来解决这个问题的，Canal项目利用了MySQL数据库主从同步的原理，将Canal Server模拟成一台需要同步的从库，从而让主库将binlog日志流发送到Canal Server接口。Canal项目对binlog日志的解析进行了封装，我们可以直接得到解析后的数据，而不需要理会binlog的日志格式。而且Canal项目整合了zookeeper，整体实现了高可用，可伸缩性强，是一个不错的解决方案。

经过一段时间的技术预研，我们设计了整个搜索技术架构：

ElasticSearch + Canal 开发千万级的实时搜索系统【转】,程序员,elasticsearch,大数据,搜索引擎

从架构图可以看出整个系统分为两大部分：

Canal数据变更服务平台。这部分负责解析MySQL的binlog日志，并将其解析后的数据封装成特定的对象放到Kafka中。
Kafka数据消费方。这部分负责消费存放在Kafka中的消息，当消费方拿到具体的用户表变更消息时，将最新的用户信息存放到ES数据仓库中。

Canal技术变更基础平台

因为考虑到未来可能有其他项目需要监控数据库某些表的变化，因此我们将Canal获取MySQL数据变更部分做成一个公用的平台。当有其他业务需要增加监控的表时，我们可以直接修改配置文件，重启服务器即可完成添加，极大地提高了开发效率。

在这一部分中，主要分为两大部分：Canal Server 和 Canal Client。

Canal Server端。Canal Server伪装成MySQL的一个从库，使主库发送binlog日志给 Canal Server，Canal Server 收到binlog消息之后进行解析，解析完成后将消息直接发送给Canal Client。在Canal Server端可以设置配置文件进行具体scheme（数据库）和table（数据库表）的筛选，从而实现动态地增加对数据库表的监视。

Canal Client端。Canal Client端接收到Canal Server的消息后直接将消息存到Kafka指定Partition中，并将最新的binlogid发送给zookeeper集群保存。

Kafka消息消费端

Canal技术变更平台在获取到对应的数据库变更消息后会将其放到指定的Kafka分片里，具体的业务项目需要到指定的Kafka片区里消费对应的数据变更消息，之后根据具体的业务需求进行处理。

因为Canal变化是根据表为最小单位进行地，因此我在实现方面定义了一个以表为处理单位的MsgDealer接口：