ES 8,字节跳动内部学习资料泄露

这篇具有很好参考价值的文章主要介绍了ES 8,字节跳动内部学习资料泄露。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7

深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年最新软件测试全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
ES 8,字节跳动内部学习资料泄露,2024年程序员学习,elasticsearch,大数据,搜索引擎
ES 8,字节跳动内部学习资料泄露,2024年程序员学习,elasticsearch,大数据,搜索引擎
ES 8,字节跳动内部学习资料泄露,2024年程序员学习,elasticsearch,大数据,搜索引擎
ES 8,字节跳动内部学习资料泄露,2024年程序员学习,elasticsearch,大数据,搜索引擎
ES 8,字节跳动内部学习资料泄露,2024年程序员学习,elasticsearch,大数据,搜索引擎

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上软件测试知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

如果你需要这些资料,可以添加V获取:vip1024b (备注软件测试)
ES 8,字节跳动内部学习资料泄露,2024年程序员学习,elasticsearch,大数据,搜索引擎

正文

数据量 总耗时 平均每张耗时
340507 170s 0.5ms

写入数34万,耗时170s。

ES 8,字节跳动内部学习资料泄露,2024年程序员学习,elasticsearch,大数据,搜索引擎

最佳查询性能

最终的性能如下表,千万级别的检索可以在毫秒级别。经历了两轮优化。

数据规模 检索 top-N 平均耗时 最长耗时
34w (512维度) 检索 top-1 [3] ms [110] ms
检索 top-10 [6] ms [150] ms
检索 top-100 [26] ms [810] ms
1000W (512维度) 检索 top-1 [14] ms [390] ms
检索 top-10 [22] ms [220] ms
检索 top-100 [42] ms [73] ms

~ps 最长耗时是非常重要的指标,要重点关注。这很可能是用户在第一次点击搜索的时候出现的情况。短板效应。

检索优化过程

说明:使用ES原生KNN检索,尝试做了三轮优化。第一轮是对写入的数据,进行一次合并优化;第二轮使用使用开源的插件elastiknn进行优化。第三轮是将数据放在SSD磁盘的机器上。每轮提升两倍。整体性能提升近10倍。(测试结果会受到了Linux os cache的影响,磁盘上的数据从磁盘读取到os cache中 )如果追求检索性能,应该增加内存,来达到将更多的数据放在缓存中去做检索的目的。

ps~ 以下相同颜色做对比。第一轮对比,是forceMerge的优化。第二轮是插件优化。第三轮在千万数据集下做测试,接近生产需求,并且包含了三项优化一起做的场景。把三种优化,放在一起,带来更多的提升!

其中forceMerge优化,只能对不再发生变化的数据做优化。比如昨天入库的数据不再新增和修改,则优化可以生效。但是不适用于实时入库的数据!

数据规模 优化项 检索 top-N 调用次数 总耗时 平均耗时 最长耗时
30W 不优化 检索 top-2 22727 [1148351] ms [50] ms -
force Merge 检索 top-2 22727 [698089] ms [30] ms -
不优化 检索 top-10 22727 [1962618] ms [86] ms [5183] ms
插件优化 检索 top-10 22727 [795893] ms [35] ms [360]
force Merge 检索 top-10 22727 [1385920] ms [60] ms [2016] ms
1000W 不优化(HDD) 检索 top-10 - - 10 - 20 s 20s
SSD 优化 检索 top-10 22727 [2781526] ms [122] ms 5s
SSD + 插件 优化 检索 top-10 22727 [1046376] ms [46] ms 5s
SSD + 插件 + merge优化 检索 top-10 22727 [] ms [22] ms [220] ms

使用elastiknn插件优化检索(只看插件优化)

数据合并 检索 top-N 调用次数 总耗时 平均耗时 最长耗时
优化前 检索 top-10 22727 [1161129] ms [51] ms [387]
优化后 检索 top-10 22727 [795893] ms [35] ms [360]
优化后 检索 top-100 22727 [5776099] ms [254] ms [8759]

华为云es + 自研插件 性能(性能比原生好10倍左右)

测试数据集

DataSet1:SIFT开源数据集,维度128,Base数据集100万条

DataSet2:SIFT10M开源数据集,维度128,Base数据集1100万条

DataSet3:GIST开源数据集,维度960,Base数据集100万条

检索性能
数据 索引类型 查询Top1 查询Top10 查询Top100
Rec RT QPS
SIFT GRAPH 0.992 2.63 6200
SIFT10M GRAPH 0.998 3.20 5000
GIST GRAPH 0.971 10.0 1500
GIST GRAPH_PQ 0.954 4.06 4000

说明

Rec表示Topk召回率,RT表示平均查询时延(毫秒),QPS表示查询吞吐量;

由于GIST的维度较高,通过使用GRAPH_PQ加速能够极大地提升查询性能,以损失精准度为代价,来提升速度

三、索引结构

以下索引,30万数据规模用一个分片即可。1000万数据规模,给3个分片。

“knn_image_index”: {
“aliases”: {},
“mappings”: {
“properties”: {
“my_image_vector”: {
“type”: “dense_vector”,
“dims”: 512,
“index”: true,
“similarity”: “l2_norm”
},
“pic”: {
“type”: “keyword”
},
“pic_path”: {
“type”: “keyword”
}
}
},
“settings”: {
“index”: {
elastiknn": “true”,
“routing”: {
“allocation”: {
“include”: {
“_tier_preference”: “data_content”
}
}
},
“refresh_interval”: “30s”,
“number_of_shards”: “1”,
“provided_name”: “knn_image_index”,
“creation_date”: “1681825402139”,
“number_of_replicas”: “0”,
“uuid”: “KjqLhlv2SMGxlwWIjgJCMw”,
“version”: {
“created”: “8030099”
}
}
}
}
}

四、资源使用情况

磁盘占用量

30W数据,占用1.7G磁盘空间。ES 8,字节跳动内部学习资料泄露,2024年程序员学习,elasticsearch,大数据,搜索引擎

内存占用量

内存使用量极少。

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以添加V获取:vip1024b (备注软件测试)
ES 8,字节跳动内部学习资料泄露,2024年程序员学习,elasticsearch,大数据,搜索引擎

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
不再深入研究,那么很难做到真正的技术提升。**

需要这份系统化的资料的朋友,可以添加V获取:vip1024b (备注软件测试)
[外链图片转存中…(img-PZlvPtn0-1713301516861)]

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!文章来源地址https://www.toymoban.com/news/detail-858188.html

到了这里,关于ES 8,字节跳动内部学习资料泄露的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 0.flink学习资料

    (1)google dataflow model 下载链接:p1792-Akidau.pdf (vldb.org) Akidau T, Bradshaw R, Chambers C, et al. The dataflow model: a practical approach to balancing correctness, latency, and cost in massive-scale, unbounded, out-of-order data processing[J]. Proceedings of the VLDB Endowment, 2015, 8(12): 1792-1803 流式计算的基石文档,google出品

    2024年02月12日
    浏览(49)
  • 以太坊入门学习资料

    区块链按照访问和管理权限分为公有链、联盟链和私有链。 公有链:完全开放,所有节点均可加入,代表链-比特币Bitcoin、以太坊Ethereum。 联盟链:有多个组织和机构共同管理,获得组织和机构许可的节点可以加入,代表链-超级账本Hyperledger Fabric。 私有链:获得集中管理者

    2024年02月02日
    浏览(55)
  • 机器学习 深度学习资料 资源machine learning

    Kaggle入门,看这一篇就够了 - 知乎 (zhihu.com) https://zhuanlan.zhihu.com/p/25686876 day1-1.什么是机器学习_哔哩哔哩_bilibili day1-1.什么是机器学习是10天学会机器学习从入门到深度学习的第1集视频,该合集共计62集,视频收藏或关注UP主,及时了解更多相关视频内容。 https://www.bilibili.com

    2024年02月21日
    浏览(52)
  • linux存储技术学习资料

    https://www.cnblogs.com/pengdonglin137/p/16525428.html Linux内核的I/O栈大图 知乎Linux I/O专栏1 Linux 块设备之Block Layer层架构演变 Linux VFS机制简析(一) Linux VFS机制简析(二) Linux Kernel文件系统写I/O流程代码分析(一) Linux Kernel文件系统写I/O流程代码分析(二)bdi_writeback linux问题调查工具

    2024年02月06日
    浏览(56)
  • DPDK相关学习资料汇总

    经常有新报道的童鞋问我,学习DPDK有哪些资料或者书籍可以看,今天我先来汇总一波,后面会持续更新: 1. DPDK官方网站:https://www.dpdk.org/和http://core.dpdk.org/doc/,官方网站提供DPDK的最新版本代码、文档和实例程序下载,同时也发布DPDK的最新版本更新和重大改进。 2. DPDK Git

    2024年02月08日
    浏览(61)
  • 小程序的学习资料收集

    1:官方工具:https://mp.weixin.qq.com/debug/w ... tml?t=1476434678461 2:简易教程:https://mp.weixin.qq.com/debug/wxadoc/dev/?t=1476434677599 3:设计指南:https://mp.weixin.qq.com/debug/wxadoc/design/index.html 4:设计资源下载:https://mp.weixin.qq.com/debug/wxadoc/design/#资源下载 5:微信小程序公测接入指南:http://

    2024年02月08日
    浏览(49)
  • 空间分析专属 Python 学习资料

    空间数据分析能够帮助我们更好地理解地理空间中的模式和关系,从而为决策提供支持。例如,城市规划者可以使用空间数据分析来确定城市发展的最佳方向,环境科学家可以使用空间数据分析来评估污染的影响,而商业分析师可以使用空间数据分析来确定最佳的商业区位。

    2024年02月12日
    浏览(42)
  • MPI学习网站和资料

    1. MPI 文档 (1)https://rookiehpc.org/mpi/docs/index.html (2)Open MPI v4.1.6 documentation 2. MPI练习题 (1)MPI Exercises (2)Tutorials · MPI Tutorial 3. 推荐书籍 Parallel Programming with MPI Using MPI - 3rd Edition Using Advanced MPI - 1st Edition 高性能计算之并行编程技术—— MPI并行程序设计

    2024年01月22日
    浏览(76)
  • 学习C++资料集合

    适合学生学习时能够方便的在浏览器里直接编c++程序 黑马机器人—C++ 鸡啄米:C++编程入门系列之目录和总结 ++98基础上学习C++11新特性 Effective Modern C++ C++ 入门教程 鱼C工作室 C++快速入门 C++ Primer 5 代码 C++设计成这样的原因 《C++演化和设计》 boost库学习 C++17 High Performance C++

    2024年02月13日
    浏览(45)
  • ChatGPT学习相关资料整理

    ChatGPT能力起源:https://mp.weixin.qq.com/s/4l0ADjdsCxSVvBeVKxSqWA ChatGPT的发展历程:https://zhuanlan.zhihu.com/p/590655677 ChatGPT研究框架:https://mp.weixin.qq.com/s/Zx14jYl8Mc8Q6cqCgp9DnA ChatGPT带来的研究范式变革:https://mp.weixin.qq.com/s/60_h5biTOlBAa3Rt2tMn6A ChatGPT训练过程:https://www.zhihu.com/zvideo/15849416705078

    2023年04月22日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包