kafka-我与面霸的三百回合大战-Toy模板网

这篇具有很好参考价值的文章主要介绍了kafka-我与面霸的三百回合大战。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

我：kakfa的段号其实就是根据偏移量来的，它代表当前段内偏移量最小的那条数据的offset，比如：

kafka-我与面霸的三百回合大战,程序员,kafka,分布式

segment1的段号是200，segment2的段号是500，那么segment1就存储了偏移量200-499的消息。

面试官：嗯嗯，那定位到段后，如何定位到具体的消息，直接遍历吗？

我：不是直接遍历，直接遍历效率太低，kafka采用稀疏索引的方式来搜索具体的消息，其实每个log分段后，除了log文件外，还有两个索引文件，分别是.index和.timeindex，

kafka-我与面霸的三百回合大战,程序员,kafka,分布式

其中.index就是我说的偏移量索引文件，它不会为每条消息创建索引，它会每隔一个范围区间创建索引，所以称之为稀疏索引。 kafka-我与面霸的三百回合大战,程序员,kafka,分布式比如我们要查找消息6的时候，首先加载稀疏文件索引.index到内存中，然后通过二分法定位到消息5，最后通过消息5指向的物理地址接着向下顺序查找，直至找到消息6。

面试官：那稀疏索引的好处是什么？

我：稀疏索引是一个折中的方案，既不占用太多空间，也提供了一定的快速检索能力。

面试官：上面你说到了.timeindex文件，它是干嘛的？

我：这和kafka清理数据有着密切的关系，kafka默认保留7天内的数据，对于超过7天的数据，会被清理掉，这里的清理逻辑主要根据timeindex时间索引文件里最大的时间来判断的，如果最大时间与当前时间差值超过7天，那么对应的数据段就会被清理掉。

面试官：说到数据清理，除了你说的根据时间来判断的，还有哪些？

我：还有根据日志文件大小和日志起始偏移量的方式，对于日志文件大小，如果log文件（所有的数据段总和）大于我们设定的阈值，那么就会从第一个数据段开始清理，直至满足条件。对于日志起始偏移量，如果日志段的起始偏移量小于等于我们设定的阈值，那么对应的数据段就会被清理掉。

面试官：你知道消息合并吗？如果知道说说消息合并带来的好处。

我：了解一点，消息合并就是把多条消息合并在一起，然后一次rpc调用发给broker，这样的好处无疑会减少很多网络IO资源，其次消息会有个crc校验，如果不合并每条消息都要crc，合并之后，多条消息可以一起crc一次。

面试官：那合并之后的消息，什么时候会给broker？

我：合并的消息会在缓冲区内，如果缓冲区快满了或者一段时间内没有生产消息了，那么就会把消息发给broker。

面试官：那你知道消息压缩吗？

我：知道一点，压缩是利用cpu时间来节省带宽成本，压缩可以使数据包的体积变得更小，生产者负责将数据消息压缩，消费者拿到消息后自行解压。

面试官：所有只有生产者可以压缩？

我：不是的，broker也可以压缩，当生产者指定的压缩算法和broker指定压缩算法的不一样的时候，broker会先按照生产者的压缩算法解压缩一下，然后再按照自己的压缩算法压缩一下，这是需要注意的，如果出现这种情况会影响整体的吞吐。还有就是新老版本的问题，如果新老版本的压缩算法不兼容，比如broker版本比较老，不支持新的压缩算法，那么也会发生一样的事情。

面试官：我们知道kafka的消息是要写入磁盘的，磁盘IO会不会很慢？

我：是这样的，kafka的消息是磁盘顺序读写的，有关测试结果表明，一个由6块7200r/min的RAID-5阵列组成的磁盘簇的线性（顺序）写入速度可以达到 600MB/s，而随机写入速度只有 100KB/s，两者性能相差6000倍。操作系统可以针对线性读写做深层次的优化，比如预读（read-ahead，提前将一个比较大的磁盘块读入内存）和后写（write-behind，将很多小的逻辑写操作合并起来组成一个大的物理写操作）技术。顺序写盘的速度不仅比随机写盘的速度快，而且也比随机写内存的速度快。

面试官：顺序读写是为了解决了缓慢的磁盘问题，那在网络方面还有其他的优化吗？

我：有，零拷贝，在没有零拷贝的时候，消息是这样交互的：

kafka-我与面霸的三百回合大战,程序员,kafka,分布式