ES 8，字节跳动内部学习资料泄露-Toy模板网

这篇具有很好参考价值的文章主要介绍了ES 8，字节跳动内部学习资料泄露。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新软件测试全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
ES 8，字节跳动内部学习资料泄露,2024年程序员学习,elasticsearch,大数据,搜索引擎

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上软件测试知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024b （备注软件测试）
ES 8，字节跳动内部学习资料泄露,2024年程序员学习,elasticsearch,大数据,搜索引擎

正文


数据量	总耗时	平均每张耗时
340507	170s	0.5ms

写入数34万，耗时170s。

ES 8，字节跳动内部学习资料泄露,2024年程序员学习,elasticsearch,大数据,搜索引擎

最佳查询性能

最终的性能如下表,千万级别的检索可以在毫秒级别。经历了两轮优化。


数据规模	检索 top-N	平均耗时	最长耗时
34w （512维度）	检索 top-1	[3] ms	[110] ms
检索 top-10	[6] ms	[150] ms
检索 top-100	[26] ms	[810] ms
1000W （512维度）	检索 top-1	[14] ms	[390] ms
检索 top-10	[22] ms	[220] ms
检索 top-100	[42] ms	[73] ms

~ps 最长耗时是非常重要的指标，要重点关注。这很可能是用户在第一次点击搜索的时候出现的情况。短板效应。

检索优化过程

说明：使用ES原生KNN检索，尝试做了三轮优化。第一轮是对写入的数据，进行一次合并优化；第二轮使用使用开源的插件elastiknn进行优化。第三轮是将数据放在SSD磁盘的机器上。每轮提升两倍。整体性能提升近10倍。（测试结果会受到了Linux os cache的影响，磁盘上的数据从磁盘读取到os cache中）如果追求检索性能，应该增加内存，来达到将更多的数据放在缓存中去做检索的目的。

ps~ 以下相同颜色做对比。第一轮对比，是forceMerge的优化。第二轮是插件优化。第三轮在千万数据集下做测试，接近生产需求，并且包含了三项优化一起做的场景。把三种优化，放在一起，带来更多的提升！

其中forceMerge优化，只能对不再发生变化的数据做优化。比如昨天入库的数据不再新增和修改，则优化可以生效。但是不适用于实时入库的数据！


数据规模	优化项	检索 top-N	调用次数	总耗时	平均耗时	最长耗时
30W	不优化	检索 top-2	22727	[1148351] ms	[50] ms	-
force Merge	检索 top-2	22727	[698089] ms	[30] ms	-
不优化	检索 top-10	22727	[1962618] ms	[86] ms	[5183] ms
插件优化	检索 top-10	22727	[795893] ms	[35] ms	[360]
force Merge	检索 top-10	22727	[1385920] ms	[60] ms	[2016] ms
1000W	不优化（HDD）	检索 top-10	-	-	10 - 20 s	20s
SSD 优化	检索 top-10	22727	[2781526] ms	[122] ms	5s
SSD + 插件优化	检索 top-10	22727	[1046376] ms	[46] ms	5s
SSD + 插件 + merge优化	检索 top-10	22727	[] ms	[22] ms	[220] ms

使用elastiknn插件优化检索（只看插件优化)


数据合并	检索 top-N	调用次数	总耗时	平均耗时	最长耗时
优化前	检索 top-10	22727	[1161129] ms	[51] ms	[387]
优化后	检索 top-10	22727	[795893] ms	[35] ms	[360]
优化后	检索 top-100	22727	[5776099] ms	[254] ms	[8759]

华为云es + 自研插件性能（性能比原生好10倍左右）

测试数据集

DataSet1：SIFT开源数据集，维度128，Base数据集100万条

DataSet2：SIFT10M开源数据集，维度128，Base数据集1100万条

DataSet3：GIST开源数据集，维度960，Base数据集100万条

检索性能


数据	索引类型	查询Top1	查询Top10	查询Top100
		Rec	RT	QPS
SIFT	GRAPH	0.992	2.63	6200
SIFT10M	GRAPH	0.998	3.20	5000
GIST	GRAPH	0.971	10.0	1500
GIST	GRAPH_PQ	0.954	4.06	4000

说明：

Rec表示Topk召回率，RT表示平均查询时延（毫秒），QPS表示查询吞吐量；

由于GIST的维度较高，通过使用GRAPH_PQ加速能够极大地提升查询性能，以损失精准度为代价，来提升速度

三、索引结构

以下索引，30万数据规模用一个分片即可。1000万数据规模，给3个分片。

“knn_image_index”: {
“aliases”: {},
“mappings”: {
“properties”: {
“my_image_vector”: {
“type”: “dense_vector”,
“dims”: 512,
“index”: true,
“similarity”: “l2_norm”
},
“pic”: {
“type”: “keyword”
},
“pic_path”: {
“type”: “keyword”
}
}
},
“settings”: {
“index”: {
elastiknn": “true”,
“routing”: {
“allocation”: {
“include”: {
“_tier_preference”: “data_content”
}
}
},
“refresh_interval”: “30s”,
“number_of_shards”: “1”,
“provided_name”: “knn_image_index”,
“creation_date”: “1681825402139”,
“number_of_replicas”: “0”,
“uuid”: “KjqLhlv2SMGxlwWIjgJCMw”,
“version”: {
“created”: “8030099”
}
}
}
}
}

四、资源使用情况

磁盘占用量

30W数据，占用1.7G磁盘空间。 ES 8，字节跳动内部学习资料泄露,2024年程序员学习,elasticsearch,大数据,搜索引擎

内存占用量

内存使用量极少。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024b （备注软件测试）
ES 8，字节跳动内部学习资料泄露,2024年程序员学习,elasticsearch,大数据,搜索引擎

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
不再深入研究，那么很难做到真正的技术提升。**

需要这份系统化的资料的朋友，可以添加V获取：vip1024b （备注软件测试）
[外链图片转存中…(img-PZlvPtn0-1713301516861)]

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！文章来源地址https://www.toymoban.com/news/detail-858188.html

到了这里，关于ES 8，字节跳动内部学习资料泄露的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！