LongLLaMA:LLaMA的升级版,处理超长上下文的利器!

这篇具有很好参考价值的文章主要介绍了LongLLaMA:LLaMA的升级版,处理超长上下文的利器!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原文来源:芝士AI吃鱼

有效整合新知识:大模型面临的挑战

大家使用过大型模型产品的时候可能会遇到一个共同的问题:在进行多轮对话时,模型可能会忘记之前的对话内容,导致回答不连贯。这实际上是由于大型模型在处理大量新内容时有时会力不从心,给人一种分心的感觉。

这个问题实际上也是当前大型模型面临的一个主要挑战,即如何有效地将大量新知识整合到模型中。目前常见的解决方法之一是微调(fine-tune),但这种方法不仅需要大量资源和复杂的流程,而且并不能总是清晰地指导模型如何整合新知识。例如,对《爱丽丝梦游仙境》这样的文本进行微调,不能让模型回答与故事本身相关的问题,只能让模型预测下一个词或者补全句子。这种情况让人感到很沮丧。

整合新知识的替代方法:上下文整合

除了微调外,另一种有效的替代方法是将新知识整合到上下文中,而无需进行模型训练。然而,这种方法受到模型上下文长度的限制。为了处理大型知识数据库,模型需要将上下文长度扩展到数百万个标记,但这在现实中是不可行的。即使是强大的GPT-4模型,其上下文长度也只有32K。

谷歌DeepMind研究团队最近提出了一种名为"Focused Transformer"(FoT)的注意力集中的Transformer架构,旨在解决大型模型的分心问题。他们使用FoT对LLaMA模型进行微调,从而获得了名为LongLLaMA的模型,其架构与LLaMA相同。通过解决大型模型的分心问题,LongLLaMA显著提高了模型的上下文长度,并且在passkey检索任务中甚至可以扩展到256K长度的上下文。更重要的是,LongLLaMA对标准Transformer的改动非常小,可以无缝切换到其他任务的大型语言模型。

Focused Transformer(FoT)是一种注重注意力集中的Transformer架构。它通过优化模型的注意力机制,帮助模型更好地处理大量新知识和上下文信息。这项创新技术的引入使得模型能够有效整合新知识,提高对话的连贯性。

在FoT的基础上,研究团队对LLaMA模型进行了微调,得到了LongLLaMA模型。与LLaMA相比,LongLLaMA在处理上下文长度方面取得了显著的改进。在passkey检索任务中,LongLLaMA能够处理长达256K的上下文信息,这在过去是难以实现的。

LongLLaMA:LLaMA的升级版,处理超长上下文的利器!,llama,人工智能,chatgpt

LongLLaMA-3B模型在上下文长度为100k时准确率达到94.5%,在上下文长度达到256k的准确率为73%,而标准的LLaMA-3B模型在上下文长度2k时准确率接近于0,已基本不可用了。

LongLLaMA:LLaMA的升级版,处理超长上下文的利器!,llama,人工智能,chatgpt

FoT的实现方法很简单,它实际和谷歌2022年提出的一个内存加大版的transormer—Memoryrizing Transormer非常相似,后面我们也会详细讨论FoT和它的区别。FoT额外使用了一块较大的内存来存储历史信息的key-value对,然后借鉴了对比学习的思想在训练阶段中使用跨批次训练(cross-btach)将大量历史信息融入到样本中以增强key-value对的空间结构,这样模型就能对更加专注在和当前问题非常相关的历史信息中。

目前LongLLaMA模型的代码和权重已经公布在github和Hugging Face:

论文链接:
https://arxiv.org/pdf/2307.03170.pdf
项目地址:
https://github.com/CStanKonrad/long_llama
Hugging Face:
https://huggingface.co/syzymon/long_llama_3b文章来源地址https://www.toymoban.com/news/detail-595748.html

到了这里,关于LongLLaMA:LLaMA的升级版,处理超长上下文的利器!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 爬虫练习-12306自动购票升级版

    hello兄弟们,偷懒归来了。别问为啥这么久没更,问就是失踪了 最近一直在学习Django以及爬虫进阶之类的知识,加上快期末了,一直没有想起来自己还有一个账号没有更新,sorry啦 言归正传,今天抽空把前面的文章升级了一下。这里先把整理好的代码提前放给大家 代码放上,

    2024年02月06日
    浏览(63)
  • C语言猜数字升级版

    题目概述 猜数字是一种益智游戏,既可以两个人一起玩,也可以与电脑一起玩。现在我们需要将这个游戏移到电脑上,让电脑与我们一起玩猜数字游戏. 需求分析 用户输入:确定用户输入的数据是否正确 游戏过程:保证计算机能正确选定一个随机数字,并能够正常与用户互

    2024年02月04日
    浏览(55)
  • 单身狗问题(初级)兼(升级版)

    所属专栏:经典算法题❤️ 🚀 博主首页:初阳785❤️ 🚀 代码托管:chuyang785❤️ 🚀 感谢大家的支持,您的点赞和关注是对我最大的支持!!!❤️ 🚀 博主也会更加的努力,创作出更优质的博文!!❤️ 🚀 关注我,关注我,关注我,重要的事情说三遍!!!!!!!!

    2024年02月16日
    浏览(43)
  • P1553 数字反转(升级版)(JAVA)

    以下为原题面,仅供参考: 给定一个数,请将该数各个位上数字反转得到一个新数。 这次与 NOIp2011 普及组第一题不同的是:这个数可以是小数,分数,百分数,整数。整数反转是将所有数位对调;小数反转是把整数部分的数反转,再将小数部分的数反转,不交换整数部分与小

    2024年02月13日
    浏览(46)
  • 云计算中网络基础知识(升级版)

    网络相连:电脑-交换机-电脑 需要配置两个地址:(1) IP地址、子网掩码、网关(网络的出口)。 (2) MAC 地址(物理地址)不需要配置,电脑网卡自带的(天生就有) 电脑必须要配置IP地址、子网掩码 才可以通信、网关可以不用(前提是两台电脑处在同一个网段下) 网关

    2023年04月27日
    浏览(44)
  • EasyExcel复杂表头导出(一对多)升级版

            在之前写的 EasyExcel复杂表头导出(一对多)的博客的结尾,受限于当时的能力和精力,留下一些问题及展望。现在写下此博客,目的就是解决之前遗留的问题。         背景介绍,见上述链接指向的博客,这里主要通过 自定义拦截器 的形式来完美解决。 对于图

    2024年02月06日
    浏览(63)
  • 【Unity+MySQL】实现注册登录系统(升级版)

    接着 上篇文章所谈到的系统缺陷,这篇文章进行升级解决。 问题 :注册界面与登录界面是同一个界面,导致用户输入用户密码进行注册后,即可点击登录。 解决 :在同一个场景中分别创建注册界面和登录界面,使用SetActive控制注册/登录成功后UI的显示与隐藏。 整体的UI框

    2024年02月09日
    浏览(50)
  • Python数据挖掘 | 升级版自动查核酸

    📕作者简介: 热爱跑步的恒川 ,致力于C/C++、Java、Python等多编程语言,热爱跑步,喜爱音乐的一位博主。 📗本文收录于恒川的日常汇报系列,大家有兴趣的可以看一看 📘相关专栏C语言初阶、C语言进阶系列、恒川等,大家有兴趣的可以看一看 📙Python零基础入门系列,J

    2024年02月08日
    浏览(46)
  • 洛谷-P1478-陶陶摘苹果(升级版)(贪心)

    又是一年秋季时,陶陶家的苹果树结了 n n n 个果子。陶陶又跑去摘苹果,这次他有一个 a a a 公分的椅子。当他手够不着时,他会站到椅子上再试试。 这次与 NOIp2005 普及组第一题不同的是:陶陶之前搬凳子,力气只剩下 s s s 了。当然,每次摘苹果时都要用一定的力气。陶陶

    2024年02月21日
    浏览(44)
  • Python每日一练——第5天:闰年问题升级版

    前言 📢📢 Python每日一练来啦,本文已收录于: 《Python每日一练》专栏 此专栏目的在于,帮忙学习Python的小白提高编程能力,训练逻辑思维,每周持续更新中,欢迎免费订阅!!! 输入年月日,输出该日期是否是闰年,并且输出该日期是此年份的第几天 闰年判断条件(两

    2024年02月05日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包