生成式 AI 分析:大模型 + 大量数据的神奇效果

这篇具有很好参考价值的文章主要介绍了生成式 AI 分析:大模型 + 大量数据的神奇效果。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。


大模型的涌现能力 (Emergent Ability)

下图是模型性能(Loss for next token prediction)与「参数量」和「数据集大小」之间的关系,可以看出随着「参数量」和「数据集大小」不断变大,模型性能不断增强,仿佛不会遇到瓶颈。

生成式 AI 分析:大模型 + 大量数据的神奇效果

下图展现了大模型的涌现能力,即语言模型的性能随着参数量增加并不是线性关系,而是突然跃升,即涌现。在未达到门槛之前,性能一直在随机的水平徘徊。
生成式 AI 分析:大模型 + 大量数据的神奇效果
生成式 AI 分析:大模型 + 大量数据的神奇效果
生成式 AI 分析:大模型 + 大量数据的神奇效果

Calibration

在上面的实验图中,Calibration 指「模型置信度」与「真实概率」之间的关系,即满足「置信度高 -> 正确」、「置信度低 -> 可能错误」的模型,其 Calibration 指标越好。

因此 Calibration 实际上对应着「模型是否知道自己错了」这件事,如下图所示,不同参数量的模型对应不同的颜色,可以看到模型越大,其对自己是否出错的把握越大,即「模型置信度」与「真实概率」更为贴合。

生成式 AI 分析:大模型 + 大量数据的神奇效果

Inverse Scaling Prize

一个比赛,奖金悬赏,寻找能让「模型越大,性能越差」的任务。

生成式 AI 分析:大模型 + 大量数据的神奇效果
在这个比赛的任务中,许多之前的 “大模型” 随着参数量变大,其性能确实变差了,但当拿出更大的模型之后,其性能又好了起来,并产生了一段 U 型曲线。

生成式 AI 分析:大模型 + 大量数据的神奇效果
这个比赛中的任务,一般都是「具体误导性的」,例如下述这个例子:

生成式 AI 分析:大模型 + 大量数据的神奇效果
因此对于上述这种 U 型曲线,一种猜测是:这些任务里通常包含着一些误导任务,例如上述的 5 元,当模型还没有很大的时候,由于一知半解,就会接受被误导的方法,进而使其比随机效果还要差,但当其变得足够大时,就会得到真正的结果,类似于上述的计算期望值。

生成式 AI 分析:大模型 + 大量数据的神奇效果

Switch Transformer

Switch Transformer 模型参数量为 1.6T(GPT-3 为 1750 亿,GPT-3.5 为 2000 亿),其使用了 Mixture-of-expert 的结构,即在模型推断(Inference)的时候,选取不同的 Module,进而加快推断速度。

生成式 AI 分析:大模型 + 大量数据的神奇效果


大数据的重要性

足够大量的数据才能让模型学会「常识,即世界知识」,如下图所示,横坐标为数据量。
生成式 AI 分析:大模型 + 大量数据的神奇效果
数据集准备过程:

  • 过滤有害内容(google 安全搜索)
  • 去除 HTML 标签
  • 用规则去除低品质数据
  • 去除重复数据
  • 过滤出测试集(例如 GPT-3 就未过滤出测试集)

生成式 AI 分析:大模型 + 大量数据的神奇效果

「大模型」还是「大数据」

在固定的运算资源时,应该优先「大模型」还是「大数据」?看目前的趋势,模型大小越来越大,但训练数据量并没有明显变化。

生成式 AI 分析:大模型 + 大量数据的神奇效果

根据下图(颜色代表固定的运算资源,横坐标为参数量,参数量越大,数据量越小),可以发现「大模型」和「大数据」需要取得平衡,只增加模型大小,不增加算力,只会让训练结果变得更差。

生成式 AI 分析:大模型 + 大量数据的神奇效果

每个 U 型曲线取一个最低点,得到下图所示的算力与参数量(Parameters)和数据量(Tokens)之间的关系。

生成式 AI 分析:大模型 + 大量数据的神奇效果
根据上述估计图,Google 重新估计了 Gopher(参数量为 280 Billion,数据量为 300 Billion) 对应的算力下,应该采取的参数量和数据量方案,于是训练得到了 Chinchilla(参数量为 63 Billon,数据量为 1.4 Trillion)。对比之后,发现 Chinchilla 大胜 Gopher。

生成式 AI 分析:大模型 + 大量数据的神奇效果
根据上述结果,进一步给出了具体的「参数量」与「数据量」之间的关系:

生成式 AI 分析:大模型 + 大量数据的神奇效果

最新的 LLaMA 也采用了这种「减少参数量,扩大数据量」的方案:

生成式 AI 分析:大模型 + 大量数据的神奇效果


KNN LM

通常来说,语言模型在做一个分类问题,即输入为「清华大」,输出为各个候选词的概率,随后选出概率最高的词即可。

如下所示,Transformer 得到 Text 的 Embedding,随后通过线性层 + softmax 转换为分类问题。
生成式 AI 分析:大模型 + 大量数据的神奇效果
与之对比,KNN LM 在得到 Repesentation 后,不仅训练了一个分类器,还将测试 Text 的 Repesentation 与训练数据得到的 Repesentation 进行距离计算,并根据距离得到下一个词的预测概率,再与原始分类器结合起来,得到最终结果。

生成式 AI 分析:大模型 + 大量数据的神奇效果
另外,KNN LM 可以拿任意资料与测试 Text 的 Representation 计算距离,并不局限于训练数据。因此 KNN LM 这种机制可以使模型训练时更专注于一些难度更高的问题,对于一些仅需记忆的问题则可以通过这种方式解决。文章来源地址https://www.toymoban.com/news/detail-434507.html


参考资料

  • Hung-yi Lee:生成式 AI(一)
  • Scaling Laws for Neural Language Models
  • Emergent Abilities of Large Language Models
  • Inverse scaling can become U-shaped
  • Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
  • When Do You Need Billions of Words of Pretraining Data?
  • Scaling Language Models: Methods, Analysis & Insights from Training Gopher
  • Deduplicating Training Data Makes Language Models Better
  • Training Compute-Optimal Large Language Models
  • Scaling Instruction-Finetuned Language Models
  • Introduction of ChatGPT
  • Training language models to follow instructions with human feedback
  • Learning to summarize from human feedback
  • Ggeneralization Through Memorization: Nearest Neighbor Language Models
  • Language Is Not All You Need: Aligning Perception with Language Models

到了这里,关于生成式 AI 分析:大模型 + 大量数据的神奇效果的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • pinokio让你在本地轻松跑多种AI模型的神奇浏览器

    想要探索生成式人工智能的前沿进展吗?订阅我们的中文简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行!点击订阅,https://rengo

    2024年02月03日
    浏览(43)
  • 【花雕学AI】超级提问模型大全!150个ChatGPT神奇示例,让你的聊天更有趣!

    你是否想要成为聊天高手,让你的对话更加有趣和深入?你是否想要掌握一些超级提问模型,让你的聊天更加有创意和挑战?你是否想要借助人工智能的力量,生成一些适合你的超级提问模型? 如果你的答案是肯定的,那么你一定不能错过这篇文章。在这里,我们将为你揭秘

    2024年02月07日
    浏览(39)
  • 随机生成工具类---主要目的是为了造大量数据准备

    有时候需要造大量数据进行测试,或者是用于学习,当然了这个工具类的目的就是为了后面测试easyExcel与 easyPoi 两者性能准备的 需要引入一个 hutool工具类 hutool 工具类在此工具类上的影响并不多,好像就一个随机生成年龄的地方,才用到了,如果不想引入可以直接删除即可

    2024年02月04日
    浏览(37)
  • 大数据:AI大模型对数据分析领域的颠覆(文末送书)

    随着数字化时代的到来,大数据已经成为了各行各业中不可或缺的资源。然而,有效地分析和利用大数据仍然是一个挑战。在这个背景下,OpenAI推出的Code Interpreter正在对数据分析领域进行颠覆性的影响。 如何颠覆数据分析领域?带着这个问题,我们一起来探讨一下。 什么是

    2024年02月11日
    浏览(42)
  • 构建你自己的 AI 辅助编码助手:从 IDE 插件、代码数据生成和模型微调(万字长文)...

    我们会在 GitHub 上持续更新这个教程: https://github.com/phodal/build-ai-coding-assistant,欢迎在 GitHub 上讨论。 2023 年,生成式 AI 的火爆,让越来越多的组织开始引入 AI 辅助编码。与在 2021 年发布的 GitHub Copilot 稍有差异的是,代码补全只是重多场景中的一个。大量的企业内部在探索结

    2024年01月20日
    浏览(80)
  • ORACLE 10G版本数据库系统产生大量归档日志问题的分析

    近期接到用户告知 数据库归档暴增,导致生产库归档空间满,手动删除后,归档空间很快就会满。 立即登陆数据库系统,查询发现归档日志异常增长,从以前的每小时产生3 00M ,增长到每小时产生5 9150M 。拉取问题时段的A WR 报告,将问题S QL 提交给应用运维人员,应用修复

    2024年02月03日
    浏览(49)
  • AI Stable Diffusion Prompt参数【二】之 生成效果查验

    ENSD: 31337, Size: 776x1000, Seed: 2846440556, 3Guofeng3_v33 30 DPM++ 2M Karras 7.5 2 4078eb4174 2 Latent 0.82

    2024年02月10日
    浏览(68)
  • 【动画进阶】神奇的 3D 磨砂玻璃透视效果

    最近,群友分享了一个很有意思的效果: 原效果的网址:frosted-glass。该效果的几个核心点: 毛玻璃磨砂效果 卡片的 3D 旋转跟随效果 整体透明度和磨砂感、以及卡片的 3D 形态会随着用户移动鼠标而进行动态变化 原效果实现的较为复杂,并且实际体验卡顿感较强。本文,我

    2024年02月14日
    浏览(41)
  • AI大语言模型GPT & R 生态环境领域数据统计分析

      自2022年GPT(Generative Pre-trained Transformer)大语言模型的发布以来,它以其卓越的自然语言处理能力和广泛的应用潜力,在学术界和工业界掀起了一场革命。在短短一年多的时间里,GPT已经在多个领域展现出其独特的价值,特别是在数据统计分析领域。GPT的介入为数据处理、

    2024年03月14日
    浏览(44)
  • 基于AI大模型的电商商家端自定义报表分析诊断经营数据

    随着电商市场的不断发展和壮大,各个电商平台上的商家需要更加精细化、定制化的数据分析和诊断。但是,目前市面上尚未有一款能够满足商家对于自定义报表的需求的电商数据分析工具,且可视化展示效果也不够灵活、直观,无法帮助商家快速发现问题和解决问题。 在这

    2024年02月07日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包