微软最新研究成果:使用GPT-4合成数据来训练AI模型,实现SOTA!

这篇具有很好参考价值的文章主要介绍了微软最新研究成果:使用GPT-4合成数据来训练AI模型,实现SOTA!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

文本嵌入是各项NLP任务的基础,用于将自然语言转换为向量表示。现有的大部分方法通常采用复杂的多阶段训练流程,先在大规模数据上训练,再在小规模标注数据上微调。此过程依赖于手动收集数据制作正负样本对,缺乏任务的多样性和语言多样性。

此外,大部分方法采用BERT作为编码器,如非常经典的Sentence-BERT和SimCSE通过在推理数据集上对BERT进行微调学习文本嵌入。

但现在LLMs技术发展得如火如荼,能否用LLMs来克服现有方法的限制,升级文本嵌入方法呢?

当然可以!

最近,微软发布了一种新颖的文本嵌入方法,使用专有的LLMs为93种语言中各种文本嵌入任务生成合成数据,并且涉及了多个任务场景。

微软使用了Mistral-7B对合成数据和标记数据进行混合训练,**成功登顶Huggingface排行榜,比之前的方法高2%**。

微软最新研究成果:使用GPT-4合成数据来训练AI模型,实现SOTA!,人工智能

论文标题:
Improving Text Embeddings with Large Language Models

论文链接:
https://arxiv.org/pdf/2401.00368.pdf

模型:
https://huggingface.co/intfloat/e5-mistral-7b-instruct

数据
https://huggingface.co/datasets/andersonbcdefg/synthetic_retrieval_tasks

方法

合成数据生成

作者使用GPT-4集思广益产生一系列潜在的检索任务,然后为每个任务生成(查询,正例,困难反例)三元组,如下图所示。

微软最新研究成果:使用GPT-4合成数据来训练AI模型,实现SOTA!,人工智能

为了生成多样化的合成数据,作者提出了一个简单的分类法,将嵌入任务分为几个组,并针对每个组应用不同的提示模板:

非对称任务:包括查询和文档在语义上相关但并不是互相改写的任务。根据查询和文档的长度,进一步分为四个子组:短-长匹配、长-短匹配、短-短匹配和长-长匹配。短-长匹配任务涉及短查询和长文档,是商业搜索引擎中的典型情况。

对称任务:涉及具有相似语义但表面形式不同的查询和文档。包括单语语义文本相似性(STS)和双语检索。

训练

给定一个相关的查询-文档配对(,),将以下指令模板应用于原始查询,生成一个新的查询 :

其中,嵌入任务的一句话描述的占位符。

给定一个预训练的LLM,将[EOS]标记附加到查询和文档的末尾,然后将它们输入LLM,通过获取最后一层的[EOS]向量来获得查询和文档的嵌入()。

为了训练嵌入模型,采用了标准的InfoNCE损失函数L,使用批内负样本和困难负样本进行计算。

微软最新研究成果:使用GPT-4合成数据来训练AI模型,实现SOTA!,人工智能

其中计算查询q和文档d之间匹配分数的函数,本文采用温度缩放余弦相似度函数,是温度超参,在本实验中设为0.02。

微软最新研究成果:使用GPT-4合成数据来训练AI模型,实现SOTA!,人工智能

实验

合成数据统计

本文一共生成了500k个示例,其中包含150k个独特指令。25%由GPT-3.5-Turbo生成,其余由GPT-4生成。总的token消耗约为180M。主要语言为英语,覆盖了共计93种语言。对于75种低资源语言,平均每种语言约有1k个示例。

微软最新研究成果:使用GPT-4合成数据来训练AI模型,实现SOTA!,人工智能

模型微调与评估

模型选用Mistral-7b进行1个epoch微调,评估基准选用MTEB基准测试。

训练数据:利用生成的合成数据和包含13个公共数据集的集合, 在采样后得到约180万个样例。为了与一些先前的工作进行公平比较,还报告了仅有标签监督的MS-MARCO数据集的结果。

主要结果

微软最新研究成果:使用GPT-4合成数据来训练AI模型,实现SOTA!,人工智能

▲表1

如上表所示,本文提出的模型“E5mistral-7b + full data”在MTEB基准测试中获得了最高的平均得分,比之前的最先进模型高出2.4个点

在“仅使用合成数据”的设置中,没有使用标记数据进行训练,其性能仍然相当有竞争力。生成式语言建模和文本嵌入都需要模型对自然语言有深刻的理解,。基于嵌入任务定义,一种真正强大的轻量级模型应该能够自动生成训练数据,然后通过轻量级微调转换为嵌入模型。

微软最新研究成果:使用GPT-4合成数据来训练AI模型,实现SOTA!,人工智能

▲表2

在表2中,作者还对几个商业文本嵌入模型进行了比较。然而,由于这些模型缺乏透明度和文档说明,不可能做到完全公平的比较。作者主要关注BEIR基准测试的检索性能,因为RAG是未来LLMs应用的重要趋势之一。正如表2所示,本文的模型在性能上明显优于当前的商业模型。

多语言检索

为了评估模型的多语言能力,作者在包含18种语言的MIRACL数据集上进行了评估。该数据集包括人工注释的查询和相关性判断。

微软最新研究成果:使用GPT-4合成数据来训练AI模型,实现SOTA!,人工智能

▲表3

如表3所示,该模型在高资源语言特别是英语上超过mE5large。对于低资源语言,本文的模型仍然不够优秀。这是因为Mistral-7B主要预训练于英语数据,未来将可以使用多语言LLM弥合这一差距。

除此之外,作者还探讨分析了几个问题。

分析

1. 对比预训练真的重要吗?

弱监督对比性预训练是现有文本嵌入模型取得成功的关键因素之一。例如,将随机裁剪的片段作为预训练的正样本对待,或者从各种来源收集并筛选文本对。

那么对于LLMs而言,对比预训练还有用吗?

微软最新研究成果:使用GPT-4合成数据来训练AI模型,实现SOTA!,人工智能

如上图所示,对比预训练有益于XLM-Rlarge,在相同数据上微调时,其检索性能提高了8.2个点,与之前的研究结果一致。

然而,对于基于Mistral-7B的模型,对比预训练对模型质量几乎没有影响。这意味着广泛的自回归预训练使LLMs能够获取良好的文本表示,只需要进行最少限度的微调即可将其转化为有效的嵌入模型,而无需对比预训练。

个性化密码检索

为了评估模型的长上下文能力,作者引入了一项新的合成任务——个性化密码检索,如下图所示,包含多个文件,每个文件都有一个独特的人名和一个随机的密码,插入在随机的位置。任务是从100个候选项中找回包含给定个人密码的文件。通过这个过程测试模型将长上下文中的密码信息编码到嵌入中的能力。

微软最新研究成果:使用GPT-4合成数据来训练AI模型,实现SOTA!,人工智能

作者通过改变滑动窗口大小和RoPE旋转基,比较了不同变体的性能。

微软最新研究成果:使用GPT-4合成数据来训练AI模型,实现SOTA!,人工智能

  • 结果表明,默认配置下,使用4k滑动窗口在4k个token内达到了100%的准确率,但随着上下文长度的增加,准确率迅速下降。

  • 将滑动窗口大小天真地扩展到32k会导致更差的性能。

  • 通过将RoPE旋转基准更改为,模型可以在32k个标记内实现超过90%的准确率。但在短上下文不太适用。

结论

这篇工作证明了通过LLMs技术,文本嵌入的质量可以得到显著提升。 研究人员使用了专有的LLMs(如GPT-4),在多种语言环境下生成了多样化的合成数据,并结合Mistral模型强大的语言理解能力,在竞争激烈的MTEB基准测试中取得了SOTA。与现有的多阶段方法相比,既简单又高效,不再需要中间预训练的环节。

用网友的话说就是“Amazing Amazing Amazing!”,省去了人工采集数据的繁琐步骤,每个人都可以轻松地生成自己的数据集,并训练强大的嵌入模型。 语义检索模型不给力导致生成模型性能受影响的局面,总算有希望翻篇儿了!

微软最新研究成果:使用GPT-4合成数据来训练AI模型,实现SOTA!,人工智能文章来源地址https://www.toymoban.com/news/detail-782977.html

到了这里,关于微软最新研究成果:使用GPT-4合成数据来训练AI模型,实现SOTA!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 微软、OpenAI用上“数据永动机” 合成数据是晨曦还是暮光?

    微软、OpenAI、Cohere等公司已经开始测试使用合成数据来训练AI模型 。Cohere首席执行官Aiden Gomez表示,合成数据可以适用于很多训练场景,只是目前尚未全面推广。 已有的(通用)数据资源似乎接近效能极限,开发人员认为, 网络上那些通用数据已不足以推动AI模型的性能发展

    2024年02月15日
    浏览(35)
  • 最新成果展示:GaN基Micro-LED热学模型数据库的开发及应用

    由于GaN基 Micro-LED 表面积 - 体积比增加,其在热学方面的性质有别于大尺寸的L ED ,如缺陷复合导致的热效应将在发光区域中产生诸多“热”点,导致发光波长不均匀,这将影响后期显示系统的成像稳定性。针对上述问题,天津赛米卡尔科技有限公司技术团队开发出了 G aN 基

    2024年02月14日
    浏览(50)
  • Unity 工具 之 Azure 微软语音合成普通方式和流式获取音频数据的简单整理

    目录 Unity 工具 之 Azure 微软语音合成普通方式和流式获取音频数据的简单整理 一、简单介绍 二、实现原理 三、注意实现 四、实现步骤  六、关键脚本 附加: 声音设置相关 Unity 工具类,自己整理的一些游戏开发可能用到的模块,单独独立使用,方便游戏开发。 本节介绍,

    2024年02月09日
    浏览(50)
  • Unity 工具 之 Azure 微软SSML语音合成TTS流式获取音频数据的简单整理

    目录 Unity 工具 之 Azure 微软SSML语音合成TTS流式获取音频数据的简单整理 一、简单介绍 二、实现原理 三、实现步骤 四、关键代码 Unity 工具类,自己整理的一些游戏开发可能用到的模块,单独独立使用,方便游戏开发。 本节介绍,这里在使用微软的Azure 进行语音合成的两个方

    2024年02月12日
    浏览(58)
  • Unity C# 之 Azure 微软SSML语音合成TTS流式获取音频数据以及表情嘴型 Animation 的简单整理

    目录 Unity C# 之 Azure 微软SSML语音合成TTS流式获取音频数据以及表情嘴型 Animation 的简单整理 一、简单介绍 二、实现原理 三、注意事项 四、实现步骤 五、关键代码 Unity 工具类,自己整理的一些游戏开发可能用到的模块,单独独立使用,方便游戏开发。 本节介绍,这里在使用

    2024年02月12日
    浏览(58)
  • [chatgpt+Azure]unity AI二次元小女友之使用微软Azure服务实现RestfulApi->语音识别+语音合成

            如题所述,这个小项目是在unity引擎端,使用了chatgpt+微软azure的一个AI二次元女友对话的项目,实现原理也比较简单,即在unity端实现AI二次元女友的交互界面,接入chatgpt-3.5-turbo的api接口,借助chatgpt的自然语言生成能力,作为这个项目的聊天引擎。聊天功能也比较

    2024年02月04日
    浏览(49)
  • 微软财务GPT Excel Copilot for Finance使用攻略

    功能本身不收费,但是这个功能需要微软的商业版office账号才能使用,如果你没有账号,可以直说。 在桌面Excel软件中登录账号后,点击“copilot for finance”按钮,如果没有出现,则点击“加载项”,第一个就是: 它现在有两个功能核对数据和分析差异,但是分析差异功能目

    2024年03月10日
    浏览(91)
  • 最新国内免费使用GPT4教程,GPT语音对话使用,Midjourney绘画

    ChatGPT3.5、GPT4.0、GPT语音对话、Midjourney绘画,相信对大家应该不感到陌生吧?简单来说,GPT-4技术比之前的GPT-3.5相对来说更加智能,会根据用户的要求生成多种内容甚至也可以和用户进行创作交流。 然而,GPT-4对普通用户来说都是需要额外付费才可以使用。所以今天小编就整

    2024年02月04日
    浏览(69)
  • 最新国内免费使用GPT-4分享,GPT语音对话,Midjourney绘画

    ChatGPT3.5、GPT4.0、GPT语音对话、Midjourney绘画,相信对大家应该不感到陌生吧?简单来说,GPT-4技术比之前的GPT-3.5相对来说更加智能,会根据用户的要求生成多种内容甚至也可以和用户进行创作交流。 然而,GPT-4对普通用户来说都是需要额外付费才可以使用。所以今天小编就整

    2024年01月16日
    浏览(75)
  • 微软语音合成(tts)服务申请和调用

    https://azure.microsoft.com/zh-cn/free/ 这里有个视频教程,根据此完成申请流程: https://www.bilibili.com/video/BV15a4y1W7re?vd_source=bf07f28d37849885d215dc3aea189eba 申请完成后,就可以到这里申请资源: https://portal.azure.com/#home 点击资源组,里面就有部署好的服务了 点击这里,可以获取 subscription

    2024年02月11日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包