openai模型个性化训练Embedding和fine-tuning区别

这篇具有很好参考价值的文章主要介绍了openai模型个性化训练Embedding和fine-tuning区别。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

现在基于自然语言和文档进行对话的背后都是使用的基于嵌入的向量搜索。OpenAI在这方面做的很好,它的Cookbook(github.com/openai/openai-cookbook)上有很多案例,最近他们对文档做了一些更新。
GPT擅长回答问题,但是只能回答它以前被训练过的问题,如果是没有训练过的数据,比如一些私有数据或者最新的数据该怎么办呢?

这种情况下通常有两种办法,一种是微调(fine-tuning),一种是嵌入(embedding)。

微调就是在大模型的数据基础上做二次训练,事先准备好一批prompt-complition(类似于问答Q&A)的数据,生成新的模型,这个模型将会包含微调后的数据。
而嵌入则是每次向ChatGPT发送消息(prompt)的时候,把你自己数据结果带上。
王建硕老师对于微调和嵌入有过精妙的比喻:
ChatGPT就像一个已经训练好的家政阿姨,她懂中文,会做家务,但是对你家里的情况不了解。
微调就相当于阿姨第一次到你家干活的时候,你要花一小时时间告诉她家里的情况,比如物件的摆放、哪些地方不能动,哪些地方要重点照顾。
嵌入就相当于你省去了对阿姨进行二次培训的,而是在家里贴满纸条,这样阿姨一看到纸条就知道该怎么做了。

OpenAI的Cookbook也有类似的比喻

微调就像你通过学习准备考试,是一种长期记忆,但过了一周后考试来临,模型可能会忘记袭击,或者记错它从来没有读过的事实。
嵌入就像记笔记,是一种短期记忆,当考试的时候,你把笔记带上,随时翻看笔记,对于笔记上有的内容可以得到准确的答案。
另外嵌入的搜索提问方式相对于微调有一个缺点就是它每次附带的文本数量是有限制的,因为除了原始的问题,它还需要带上搜索出来的问题,GPT-3.5是4K(大约5页),GPT-4最大是32K(大约40页)。
就好比你有成书架的教科书可以借鉴,但每次却只能翻看其中几页笔记。
如果你想构建一个对大量文本问答的系统,OpenAI建议“搜索-问”(Search-Ask)的方法。
也就是先在本地文档库中Search,拿到本地的数据结果,再去Ask,把搜索结果和问题一起交给GPT,这样GPT可以根据你提供的内容以及它模型中的数据,一起将结果返还给你。
至于如何搜索,并非一定要基于向量的搜索,可以有多重搜索方式:
- 基于关键字搜索
- 基于图形的搜索
- 基于向量的搜索
至于在技术上如何实现,OpenAI的Cookbook上也有详细的介绍。
更多细节建议参考:
github.com/openai/openai-cookbook/blob/main/examples/Question_answering_using_embeddings.ipynb

文章来源地址https://www.toymoban.com/news/detail-613149.html

到了这里,关于openai模型个性化训练Embedding和fine-tuning区别的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 构建自己的ChatGPT:从零开始构建个性化语言模型

    🌷🍁 博主 libin9iOak带您 Go to New World.✨🍁 🦄 个人主页——libin9iOak的博客🎐 🐳 《面试题大全》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 🌊 《IDEA开发秘籍》学会IDEA常用操作,工作效率翻倍~💐 🪁🍁 希望本文能够给您带来一定的帮助🌸文章粗浅,敬

    2024年02月15日
    浏览(45)
  • 新模型GPT-5个性化定制将导致的安全问题

    人工智能(AI)的发展速度远远超过了硅谷过去所见的任何其他技术。OpenAI首席执行官山姆·奥特曼(Sam Altman)在最近的一次采访中表示,他们的首要任务是推出可能被称为GPT-5的新模型,这一模型将能够比现有模型做更多的事情。这一消息引发了广泛的关注和讨论,因为GP

    2024年01月19日
    浏览(62)
  • LLM-Rec:基于提示大语言模型的个性化推荐

    论文题目:LLM-Rec: Personalized Recommendation via Prompting Large Language Models 作者:Hanjia Lyu, Song Jiang, Hanqing Zeng, Yinglong Xia, Jiebo Luo 机构:University of Rochester, University of California Los Angeles, Meta AI, University of Rochester 本文研究了通过输入增强来提高大语言模型个性化内容推荐性能的各种提示策略

    2024年02月11日
    浏览(50)
  • 手把手教你做一个 ChatGPT !丝滑小白版,只需一张单卡 GPU,轻松开启个性化训练!...

    大家好,我是贺同学。 一直以来密切关注 ChatGPT 的趋势,最近相关的话题可谓是热度不减,虽然从事互联网行业,但一直对 LLM 相关领域关注较少。 最近的 ChatGPT 的火热,让我对 LLM 相关开源社区也关注了起来,相关的开源社区,也涌现了很多优秀的工作,吸引了很多人的关

    2024年02月08日
    浏览(52)
  • 基于联合表示学习、用户聚类和模型自适应的个性化联合推荐

    [Personalized Federated Recommendation via Joint Representation Learning, User Clustering, and Model Adaptation] (https://dl.acm.org/doi/abs/10.1145/3511808.3557668) CIKM2022(CCF-B) 文章主要创新点(消融实验分析的三个点): 联合表示学习 联合表示学习是指通过将用户的协作信息和属性信息结合起来,使用图神经网络

    2024年02月06日
    浏览(60)
  • 【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型

    Animatediff是一个有效的框架将文本到图像模型扩展到动画生成器中,无需针对特定模型进行调整。只要在大型视频数据集中学习到运动先验知识。AnimateDiff就可以插入到个性化的文生图模型中,与Civitai和Huggingface的文生图模型兼容,也可以与自己微调的大模型兼容。  随着文本

    2024年01月25日
    浏览(55)
  • AutoDev 1.1.3 登场,个性化 AI 辅助:私有化大模型、自主设计 prompt、定义独特规则...

    使用自己部署的开源大模型 自己配置 Intellij IDEA 中的行为 自定义开发过程中的规范 当然了,如果您自身拥有开发能力的话,建议您自己基于 AutoDev 定制。毕竟,为 AutoDev 添加太多的自定义能力,会导致架构的复杂性螺旋上升。 AutoDev 现在已支持多语言(不同语言能力有所差

    2024年02月11日
    浏览(44)
  • 个性化定制的知识付费小程序,为用户提供个性化的知识服务

    明理信息科技知识付费saas租户平台  随着知识经济的兴起,越来越多的人开始重视知识付费,并希望通过打造自己的知识付费平台来实现自己的知识变现。本文将介绍如何打造自己的知识付费平台,并从定位、内容制作、渠道推广、运营维护四个方面进行详细阐述。 一、定

    2024年01月16日
    浏览(75)
  • 使用ChatGPT进行个性化学习

    推荐:将 NSDT场景编辑器 加入你的3D工具链 3D工具集: NSDT简石数字孪生 在这篇文章中,您将发现 ChatGPT 作为机器学习和数据科学爱好者的个人导师的好处。特别是,您将学习 如何让ChatGPT引导你学习抽象代数 如何让 ChatGPT 帮助您准备数据科学面试 让我们开始吧。 使用ChatG

    2024年02月16日
    浏览(53)
  • 一、 个性化电商广告推荐系统介绍

    1.1 数据集介绍 Ali_Display_Ad_Click是阿里巴巴提供的一个淘宝展示广告点击率预估数据集 数据集来源:天池竞赛 原始样本骨架raw_sample 淘宝网站中随机抽样了114万用户8天内的广告展示/点击日志(2600万条记录),构成原始的样本骨架。 字段说明如下: user_id:脱敏过的用户ID;

    2024年02月13日
    浏览(60)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包