嗯?大火的ChatGPT和new bing都离不开它?

这篇具有很好参考价值的文章主要介绍了嗯?大火的ChatGPT和new bing都离不开它?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

概述:本文是对 WhalePaper 向量检索领域第一次直播活动内容的文字版,会对向量检索这个 ChatGPT 和 new bing 都离不开的技术进行介绍,结合了 ChatGPT 以及 new bing 的应用场景进行讲解,相信被标题骗进来的你还真能有所收获的(手动狗头)!本期内容入门友好,对课件进行了一些注解,图文结合在一起全是干货,长文预警!
  1. 脉络

本次分享的主题是:基于图索引的多向量检索及其GPU加速。

主讲人:浙江大学在读博士王梦召。

将从以下几个方面进行:

  • 背景介绍:包含 ChatGPT 的工作原理,向量检索的发展现状,什么是向量索引。

  • 多向量检索:会介绍什么是多向量,为什么需要多向量检索,如何进行多向量检索。

  • 如何通过GPU加速图索引的多向量检索:这部分内容讲解了如何基于图索引进行多向量检索,如何用GPU来加速图索引搜索。

  • 对未来的思考:主要说明了一些王博士未来研究的一个方向。

  • Q&A

  1. 背景介绍

我们每个人每天都会接触大量的非结构化数据,比如视频、语音、文本等等,根据IDC(国际数据公司)的统计,当前我们世界上所有的数据中有百分之八十是非结构化数据。目前主流的处理非结构化数据的方式是通过深度神经网络把非结构化数据转变为高维的稠密向量,再对这些向量进行分析处理。那么这些跟 ChatGPT 和 new bing 有什么关系呢?先来简单介绍一下这两者的工作方式。

ChatGPT 直接根据用户提供的上文,直接生成回应。那这个是怎么生成的呢?是靠用户给出上文提示,它才能返回下文。但是自然语言的上下文,机器并不能看懂,所以要把自然语言编码为向量的形式,回复时同样是把向量解码为一段文字。

new bing 是先用 bing 搜索找到一些参考,然后使用 GPT 模型进行归纳总结。整体工作流程分为两个部分。首先是检索,就是根据用户的搜索,先找到可靠的依赖信息。之后就是归纳总结,把搜索来的知识(网页信息)归纳为一段精炼的文字。这个过程就类似向量检索,根据 query(查询的向量)把相似向量检索到,然后使用这些向量完成下游任务,例如:归纳总结,推荐。

嗯?大火的ChatGPT和new bing都离不开它?

从两者的工作原理可以看出向量数据的重要性,AI应用离不开向量数据,而只要在搜索过程中涉及到对向量的处理,便离不开向量检索。那么什么是向量检索?

  1. 什么是向量检索?

还记得中学时期计算向量间的距离吗?这其实就是向量检索的本质。还是举个例子帮助我们更好的理解。

嗯?大火的ChatGPT和new bing都离不开它?

上图为一个二维空间,里面存放着由非结构化数据转变成的向量,我们给定一个查询(图中小绿点),即我们要搜索的事物,然后把查询也转变成向量,通过计算向量间的距离,将距离最小的几个向量(连线小红点)作为结果返回,即召回离它最近的一些结果,这就是一个比较简单的向量检索的过程。

  1. 向量检索的分类

向量检索的索引技术可以分为四个流派,分别是Tree(树索引)、Hashing(哈希索引)、Quantization(量化索引)和PG(图索引),四种方法各有各的优势。其中基于图的这种方式在效率和精度上有一个比较好的均衡,所以目前受到了大家更多的关注,也是我们这次分享的重点,后面会具体进行说明。

对另外三种索引方式感兴趣的朋友可以自行上网搜索,或者关注我们整理的相关论文:Unstructured-Data-Community/文章来源地址https://www.toymoban.com/news/detail-435935.html

到了这里,关于嗯?大火的ChatGPT和new bing都离不开它?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 汽车三高试验离不开的远程试验管理平台——TFM

      众所周知,车辆在量产之前都要经过长时间的耐久性试验和多种汽车适应性或法规试验。道路试验就是在汽车上装设测试仪表和施加模拟载荷,并按实际使用条件来进行测试。此外,在实际试验场地和试验时间上也是有一定规定的。企业根据不同的试验要求,需要将试验人

    2024年02月10日
    浏览(17)
  • 生活中离不开无线电,了解无线电管理常识

    一、无线电设备管理规定摘要 为维护空中电波秩序,防止有害干扰,确保无线电频率资源的有效利用保障用户合法权益,严厉打击走私活动,国家信息产业部无线电管理局信部无〔1999〕363号文《关于加强无线电发射设备管理的通告》中对如何加强无线电设备管理作出如下规

    2024年02月05日
    浏览(22)
  • 37_MFC自绘UI你离不开GDI绘图

    GDI (Graphics Device Interface)是图形设备接口的英文缩写,处理Windows程序的图形和图像输出。程序员不需要关心硬件设备及设备驱动,就可以将应用程序的输出转换为硬件设备上的输出,实现应用程序与硬件设备的隔离,大大简化程序开发工作。在Windows操作系统中,图形界面应用

    2024年02月21日
    浏览(19)
  • 【人人都离不开的算法】为年后的春招加把劲吧

    马上又到了春招的季节,你需要问下你自己,算法那一关,你过了吗? 2022年TIOBE年度编程语言排行榜的结果出来了,Python稳居榜首,C++终于超越了Java,上升到第三位。 在之前的几年中,这个榜单的排名也都不尽相同。 前几年Java是比较火的,但最近两年随着人工智能(AI)的

    2024年01月21日
    浏览(19)
  • VR/AR/XR背后的逻辑?离不开三维引擎相机

    作者:木一 自从Apple Vision Pro问世以来,这款被誉为开启“ 空间计算时代 ”的产品迅速吸引了众多科技博主的深度关注。业界对它的评价褒贬不一,一些人认为它是一款具有里程碑意义的创新产品,而另一些人则认为它不过是众多高质量虚拟现实(VR)产品中的一员。尽管市

    2024年04月12日
    浏览(25)
  • 有哪些工具软件是一旦用了就离不开的

    在现代社会中,工具软件已经成为我们日常工作和生活的必备品。这些软件通过提供各种功能和服务,帮助我们提高效率、简化工作流程,并且在许多方面大大改变了我们的生活方式。本文将介绍一些在使用过程中让人离不开的工具软件,这些软件不仅满足了我们的各种需求

    2024年02月06日
    浏览(23)
  • idea热部署插件JRebel激活(强烈推荐,试试就离不开了)

    JRebel可以实现在idea中热部署项目,修改后不用重启项目,让开发更丝滑。 JRebel需要激活才可以正常使用。 博主最近在找工作,Java前后端全站工程师一枚,有合适的请帮博主推荐一下 有项目的也可以联系我,感谢感谢 博主在北京 2023-07-04 发 V:y393016244 FileSettingsPlugins 搜索

    2024年02月13日
    浏览(15)
  • 什么是栈,为什么函数式编程语言都离不开栈?

    ​ 栈是一种具有特殊访问方式的存储空间,它的特殊性在于, 最后进入这个空间的数据,最先出去 ,可以画图来描述一下这种操作方式。 假设有一个盒子和三本书,依次将三本书他们放入盒子中。 入栈模拟图 ​ 现在有一个问题,如果一次只能取一本,我们如何将书从盒子

    2024年02月06日
    浏览(27)
  • 测试了Copilot辅助编程后,就离不开这个AI工具了

    微软用·chatGPT 4· 对·github copilot X·升级后,本是怀着赠热点的心态测试了一下其功能。但 Copilot 智能化程度之高,令我吃惊,两周下来已离开不这个工具了。 下面简单分享一下其使用过程,以及对如何使用好这个工具的个人看法. IDE开发环境我使用的是 VSCode 与 Visual Studio2

    2024年02月06日
    浏览(22)
  • 效率与性能并存——离不开 Visual Studio Code 的前端开发与我

    许久不见的软文来啦,今天久违的参与讨论一下这个话题,以此写一篇博客来发表一些我的看法和想法。话题的内容是: 有哪些工具软件是一旦用了就离不开的? 。作为一名前端开发的博主,这次的内容当然也是关于前端的,接触前端也快两年了,有这么一个编译器(工具

    2024年02月05日
    浏览(16)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包