RAG 领域的新宠:为什么 AI 圈都在谈论 Jina ColBERT?

这篇具有很好参考价值的文章主要介绍了RAG 领域的新宠:为什么 AI 圈都在谈论 Jina ColBERT?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

colbertv2,Jina 技术分享实录,人工智能,jina

在 RAG (检索增强生成)领域,选对向量模型至关重要,它基本就决定了 RAG 系统的“天花板”,也因此,向量模型的选择总是业界的热门讨论话题。

最近,Jina AI 在 Hugging Face 上推出的 Jina-ColBERT 模型引起了 AI 圈子里不小的轰动,尤其是在 Twitter/X 上,大家都在讨论它能处理高达 8192 Token 的强大能力,为搜索带来了更多的可能性。

与 ColBERTv2 相比,Jina-ColBERT 在各项测试中都展现了顶尖的性能,特别在处理长文档数据集时,其表现更是显著优于 ColBERTv2。

模型链接: https://huggingface.co/jinaai/jina-colbert-v1-en。

与市场上大多数向量模型相比,Jina-ColBERT 有个显著的不同点——它采用的是多向量搜索技术。单向量模型会把整个文档或段落编码成一个单一向量,然后基于余弦相似度进行匹配。而 多向量模型,如 Jina-ColBERT,则是将文本中的每个词编码成独立向量,通过迟交互计算相似度。

很多人都听过 BERT 模型,但 ColBERT 是什么呢?

先说说背景。ColBERT 基于 BERT 模型开发,师出名门斯坦福。那为啥最近又翻红了呢?原来,ColBERT 升级到 v2 版本,不仅补齐了 v1 版本在存储和扩展性上的短板,还显著提升了性能。

再来说说 ColBERT 的家谱。之前大家没怎么注意到它,主要是因为从传统搜索(文本匹配)过渡到向量检索的过程中,大家都忙着折腾单向量模型,把这位和 BERT 同门的 ColBERT 给忽略了。

单向量模型是将查询和文档简化为单一向量的表示,ColBERT 则 为每个 token 生成一个向量,并通过 MaxSim(Maximum Similarity, 最大相似度)计算得分,即它对于每个查询词,从文档中找到与之最相似的词的向量,并将这些最大相似度值相加作为最终的相关性分数。

通过 采用 token 级别的细粒度交互,即首先将查询和文档在词粒度上逐项编码,再在查询阶段进行迟交互。 也就是说,文档侧的计算可以完全离线进行,这一点与单向量模型的做法一致,但在处理方法上更为精细。这就使得它的 可解释性更好,在 token-level 匹配之后,我们能够解释查询中哪个词与文档中的哪个词最匹配。

这种多向量的召回方式带来两大好处:一是逐 token 编码提供了更细粒度的表征,在 in-domain (领域内)具有很高的 MRR@10(头部排序能力)和 Recall@1k(腰尾部召回能力)。并且提供了更好的可解释性。二是提供 out-of-domain (未知领域) 更强的泛化能力,特别是在处理长尾查询或文档时,由于词粒度的惊喜表征,使得模型对于未见过的领域有更好的性能表现。

Colbert 迟交互机制

与传统的 query-doc 全交互型 BERT 及目前流行的 Embeddings 模型相比,ColBERT 提出的 Late Interaction (迟交互)机制 有着显著的优势。

具体来说,单向量模型是吃进一个句子,吐出一个向量,然后再基于这些向量做相似度比较。而同样是分别编码查询和文档,ColBERT 拿模型生成的 Token Embedding 来做相似度计算,在后续阶段计算查询和文档 Token Embedding 之间的交互。这种方法既考虑了匹配效率,也充分利用了上下文信息,使得 ColBERT 既能作为一个强大的召回模型,也可以用做召回之后的重排工具。

colbertv2,Jina 技术分享实录,人工智能,jina

Interaction schemes

Jina-ColBERT 的升级亮点

Jina-ColBERT 是 Jina AI 对原有 ColBERT 模型的一番升级打磨。核心改进是采用了 jina-bert-v2-base-en 作为基础模型,从而支持一口气处理长达 8192 token 的文本。

这一改进意味着,无论是对付那些短小精悍的文本,还是那些长篇大论、需要深度理解的搜索任务,Jina-ColBERT 都能轻松应对。甚至在很多情况下,尤其长文本场景下,都能比 ColBERT v2 模型做得更好。

我们在 BEIR 数据集上,对比测试了 Jina-ColBERT,和原版 ColBERTv2,以及单向量模型 Jina-Embeddings-v2-base-en 模型的能力。

Dataset ColBERTv2 jina-colbert-v1-en jina-embeddings-v2-base-en
Arguana 46.5 49.4 44.0
Climate-Fever 18.1 19.6 23.5
DBPedia 45.2 41.3 35.1
FEVER 78.8 79.5 72.3
FiQA 35.4 36.8 41.6
HotpotQA 67.5 65.9 61.4
NFCorpus 33.7 33.8 32.5
NQ 56.1 54.9 60.4
Quora 85.5 82.3 88.2
SCIDOCS 15.4 16.9 19.9
SciFact 68.9 70.1 66.7
TREC-COVID 72.6 75.0 65.9
Webis-touch2020 26.0 27.0 26.2
Average 51.7 52.6 51.6

从这个表里,我们能看到 Jina-ColBERT 的亮眼表现,各项测试里,它都能和 ColBERTv2 一较高下。

值得一提的是,Jina-ColBERT 只用了 MSMARCO 数据集来训练,而 Jina-Embeddings-v2-base-en 使用了更广泛的训练数据,后者在某些特定任务上表现得更好。

我们还特别在专为长文本设计的新 LoCo Benchmark 上进行了测评,可以看到 Jina-ColBERT 在处理那些超出 ColBERTv2 常规上下文长度的场景时,表现更是出色。

Dataset ColBERTv2 jina-colbert-v1-en jina-embeddings-v2-base-en
LoCo 74.3 83.7 85.4

总的来说,Jina-ColBERT 在各项基准测试中都表现出和 ColBERTv2 相媲美的性能,当在文本的上下文更长时,它的表现就更胜一筹了。

如果你想在 RAG(检索增强生成)领域挑选出合适向量模型,这里有几条建议,帮你决定哪个最合适。

  1. 如果你偏好简单的单向量存储与检索,并且能够接受一定程度的精确度牺牲,那么 Jina-Embeddings-v2 是个不错的选择。

  2. 对于那些追求细颗粒度检索、关注模型在 out-of-domain(未知领域)的表现、以及需要模型可解释性的用户来说,Jina-ColBERT 会是更优选。

  3. 你也可以设计一个分阶段的检索流程:首先用 Jina-Embeddings-v2 快速召回候选文档,接着用 Jina-ColBERT 进行更细颗粒度的重新排序。

  4. 请注意,目前 Jina-ColBERT 仅支持英文内容的处理。

轻松上手:Jina-ColBERT 入门指南

上手 Jina-ColBERT 很简单,因为它是基于 ColBERT 模型优化的,你可以轻松地在现有支持 ColBERT 的平台上使用,比如 Vespa、RAGatouille、fastRAG 和 LangChain 等,只需将原模型名称换成 jina-colbert-v1-en。此外,我们还提供了一个专门的 Colab Notebook, 供大家快速上手。

Notebook: https://colab.research.google.com/drive/1-5WGEYPSBNBg-Z0bGFysyvckFuM8imrg

想要快速应用到项目里的话,推荐使用 RAGatouille,它做了很好的封装,可以更轻松用 ColBERT 构建 RAG Pipeline。

更多内容请访问 https://huggingface.co/jinaai/jina-colbert-v1-en。

展望未来:Jina-ColBERT 的新动向

我们正积极评估 Jina-ColBERT 作为 Reranker 的效果,并计划添加更多使用示例。同时,我们也将努力在更多数据集上进行微调,以进一步提升 Jina-ColBERT 的性能,并优化其存储性能。

colbertv2,Jina 技术分享实录,人工智能,jina文章来源地址https://www.toymoban.com/news/detail-842943.html

到了这里,关于RAG 领域的新宠:为什么 AI 圈都在谈论 Jina ColBERT?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 信息安全圈都在谈论CISP,CISSP,这两者有什么区别呢?

    CISP(Certified Information Security Professional)认证考试是由国际信息系统安全认证联盟(ISC)²所开发和管理的,主要考核信息安全专业人员在保障企业信息系统安全方面的知识和技能,主要适用于网络和系统管理员、安全工程师等信息安全从业人员。CISP考试主要涵盖以下十个领域

    2024年02月08日
    浏览(48)
  • 现在都在说 Docker 好,为什么我一用就出现这么多问题?查了一宿才解决!

    #配置国内源进行docker安装 报错 HTTP Error 404 - Not Found 原因:由于配置国内镜像源时,把地址写错了,导致后面安装docker提示HTTP Error 404 解决方法: 1)进入到 /etc/yum.repos.d目录下   如果你想学习docker教程,我这边给你推荐一套视频,这个视频可以说是B站播放全网第一的docker教

    2024年02月11日
    浏览(47)
  • 什么是革命性技术eBPF?为什么可观测性领域都得用它

    如果有一种技术可以监控和采集任何应用信息,支持任何语言,并且应用完全无感知,零侵入,想想是不是很激动,那么这个技术是什么呢?就是eBPF,它应该是最近一两年非常热门的技术名词,我相信你或多或少都看到过,但可能不知道它能做什么,今天我们来讲讲这个革命

    2024年02月04日
    浏览(49)
  • 为什么说PuddingSwap或许为成为GameFi领域的一匹强势黑马?

    GameFi这一概念最早在区块链领域现身,是指Game+Finace的组合,但随着这一产业的不断渗透,加之DeFi热度不断攀升,后期我们讨论的GameFI逐渐开始转向Game+DeFi这一组合,鼓励 Play to Earn 行为,并让用户获得可观的收益。 追溯GameFi发展的历史可以看出,这一概念最早在行业人士眼

    2024年02月16日
    浏览(55)
  • AI训练,为什么需要GPU?

    随着人工智能热潮,GPU成为了AI大模型训练平台的基石,决定了算力能力。为什么GPU能力压CPU,成为炙手可热的主角呢?首先我们要先了解一下GPU的分类。提到分类,就得提及到芯片。 半导体芯片分为 数字芯片 和 模拟芯片 。其中,数字芯片的市场规模占比较大,达到70%左右

    2024年04月11日
    浏览(59)
  • 【译】为什么AI难以概念化时间

    原作:FNTGAI 引言:如何弥合AI与先验概念之间的鸿沟   时间不是你能看到、听到或触摸到的东西。这就是康德所说的“先验”,意味着它在感官中没有对应物。你无法给时间贴标签或分类。这使得AI很难建立时间概念。例如,考虑一下当您询问 ChatGPT 您与它交谈了多长时间时

    2024年02月20日
    浏览(45)
  • AI写作宝-为什么要使用写作宝

    写作一直是一项需要创造力和思考的任务,人工智能(AI)正逐渐成为我们写作过程中的一位新伙伴。AI写作宝等在线AI写作工具正日益普及,为我们提供了更多的写作选择和可能性。 AI写作宝:什么是它们,以及它们能做什么? AI写作宝是一种基于人工智能技术的在线工具,

    2024年02月07日
    浏览(55)
  • 为什么是ChatGPT引发了AI浪潮?

    目录 BERT和GPT简介 BERT和GPT核心差异 GPT的优势 GPT的劣势 总结 随着近期ChatGPT的火热,引发各行各业都开始讨论AI,以及AI可以如何应用到各个细分场景。为了不被时代“抛弃”,我也投入了相当的精力用于研究和探索。但在试验的过程中,我的直观感受是,NLP很厉害,但GPT并不

    2024年02月06日
    浏览(42)
  • ai写作论文会被抄袭吗为什么

    大家好,小发猫降重今天来聊聊ai写作论文会被抄袭吗为什么,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 标题:AI写作论文会被抄袭吗?背后原因深度解析 近年来,随着人工智能技术的飞速发展,AI写作论

    2024年03月10日
    浏览(65)
  • 【译】为什么AI写作会显得枯燥无味

    原作:本·乌兰西 引子:绘画中减色混合的原理   照片由 Unsplash 上的 Lucas K 拍摄 当我还是个孩子的时候,我坐在一个有各种颜色的调色板前,努力尝试混合尽可能多的颜色。怀着兴奋的眼神,我看着鲜艳的颜色在画面上融合。随着越来越多的颜色相互融合,我困惑地盯着由

    2024年02月19日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包