人工智能大时代——AIGC综述

这篇具有很好参考价值的文章主要介绍了人工智能大时代——AIGC综述。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

生成式AI分类

模型按照输入输出的数据类型分类,目前主要包括9类。

人工智能大时代——AIGC综述

有趣的是,在这些已发布大模型的背后,只有六个组织(OpenAI, Google, DeepMind, Meta, runway, Nvidia)参与部署了这些最先进的模型。

人工智能大时代——AIGC综述

其主要原因是,为了能够估计这些模型的参数,必须拥有极其庞大的计算能力,以及在数据科学和数据工程方面高度熟练且经验丰富的团队。

因此,也只有这些公司,在收购的初创公司和与学术界合作的帮助下,能够成功部署生成式人工智能模型。

在大公司参与初创企业方面,可以看到微软向OpenAI投资了10亿美元,并帮助他们开发模型;同样,谷歌在2014年收购Deepmind。

在大学方面,VisualGPT是由阿卜杜拉国王科技大学(KAUST)、卡内基梅隆大学和南洋理工大学开发的,Human Motion Diffusion模型是由以色列特拉维夫大学开发的。

同样,其他项目也是由一家公司与一所大学合作开发的,比如Stable Diffusion由Runway、Stability AI和慕尼黑大学合作开发;Soundify由Runway和卡内基梅隆大学合作开发;DreamFusion由谷歌和加州大学伯克利分校合作。

Text-to-image模型

DALL-E 2

由OpenAI开发的DALL-E 2能够从由文本描述组成的提示中生成原始、真实、逼真的图像和艺术,而且OpenAI已经对外提供了API来访问该模型。

DALL-E 2特别之处在于它能够将概念、属性和不同风格结合起来,其能力源于语言-图像预训练模型CLIP神经网络,从而可以用自然语言来指示最相关的文本片段。

人工智能大时代——AIGC综述

具体来说,CLIP embedding有几个理想的属性:能够对图像分布进行稳定的转换;具有强大的zero-shot能力;并且在微调后实现了最先进的结果。

为了获得一个完整的图像生成模型,CLIP图像embedding解码器模块与一个先验模型相结合,从一个给定的文本标题中生成相关CLIP图像embedding

人工智能大时代——AIGC综述

其他的模型还包括Imagen,Stable Diffusion,Muse

Text-to-3D模型

对于某些行业,仅能生成2D图像还无法完成自动化,比如游戏领域就需要生成3D模型。

Dreamfusion

DreamFusion由Google Research开发,使用预先训练好的2D文本到图像的扩散模型来进行文本到3D的合成。

Dreamfusion使用一个从二维扩散模型的蒸馏中得到的损失取代了CLIP技术,即扩散模型可以作为一个通用的连续优化问题中的损失来生成样本。

人工智能大时代——AIGC综述

其他模型如Magic3D由英伟达公司开发。

Image-to-Text模型

获得一个描述图像的文本也是很有用的,相当于图像生成的逆版本。

Flamingo

该模型由Deepmind开发,在开放式的视觉语言任务上,只需通过一些输入/输出例子的提示,即可进行few-shot学习。

人工智能大时代——AIGC综述

具体来说,Flamingo的输入包含视觉条件下的自回归文本生成模型,能够接收与图像或视频交错的文本token序列,并生成文本作为输出。

用户可以向模型输入query,并附上一张照片或一段视频,模型就会用文本答案来回答。

人工智能大时代——AIGC综述

Flamingo模型利用了两个互补的模型:一个是分析视觉场景的视觉模型,一个是执行基本推理形式的大型语言模型。

VisualGPT

VisualGPT是一个由OpenAI开发的图像描述模型,能够利用预训练语言模型GPT-2中的知识。

为了弥合不同模态之间的语义差距,研究人员设计了一个全新的编码器-解码器注意力机制,具有整流门控功能。

人工智能大时代——AIGC综述

VisualGPT最大的优点是它不需要像其他图像到文本模型那样多的数据,能够提高图像描述模型的数据效率,能够在小众领域得到应用或对少见的物体的进行描述。

Text-to-Video模型

Phenaki

该模型由Google Research开发制作,可以在给定一连串文字提示的情况下,进行真实的视频合成。

Phenaki是第一个能够从开放域时间变量提示中生成视频的模型。

为了解决数据问题,研究人员在一个大型的图像-文本对数据集以及数量较少的视频-文本例子上进行联合训练,最终获得了超越视频数据集中的泛化能力。

主要是图像-文本数据集往往有数十亿的输入数据,而文本-视频数据集则小得多,并且对不同长度的视频进行计算也是一个难题。

Phenaki模型包含三个部分:C-ViViT编码器、训练Transformer和视频生成器。

人工智能大时代——AIGC综述

将输入token转换为embedding后,接着经过时序Transformer和空间Transformer,再使用一个没有激活的单一线性投影,将token映射回像素空间。

最终模型可以生成以开放域提示为条件的时间连贯性和多样性的视频,甚至能够处理一些数据集中不存在的新概念。

相关模型包括Soundify.

Text-to-Audio模型

对于视频生成来说,声音也是必不可缺的部分。

AudioLM

该模型是由谷歌开发,可用于生成高质量的音频,并具有长距离一致性。

AudioLM的特别之处在于将输入的音频映射成一个离散的token序列,并将音频生成作为该表示空间的语言建模任务。

通过对原始音频波形的大型语料库进行训练,AudioLM成功学会了在简短的提示下生成自然和连贯的连续的语音。这种方法甚至可以扩展到人声之外的语音,比如连续的钢琴音乐等等,而不需要在训练时添加符号表示。

人工智能大时代——AIGC综述

由于音频信号涉及多个尺度(scale)的抽象,所以音频合成时使得多尺度在显示一致性的同时实现高音频质量非常具有挑战性。AudioLM模型通过结合神经音频压缩、自监督表示学习和语言建模方面的最新进展来实现。

在主观评价方面,评分者被要求听一个10秒的样本,并决定它是人类讲话还是合成的语音。基于收集到的1000个评分,比率为51.2%,与随机分配标签没有统计学差异,即人类无法区分合成和真实的样本。

其他相关模型包括Jukebox和Whisper

Text-to-Text模型

问答任务常用。

ChatGPT

广受欢迎的ChatGPT由OpenAI开发,以对话的方式与用户进行互动。

用户提出一个问题,或是提示文本的前半部分,模型会补全后续部分,并且能够识别出不正确的输入前提并拒绝不恰当的请求。

具体来说,ChatGPT背后的算法是Transformer,训练过程主要是人类反馈的强化学习。

人工智能大时代——AIGC综述

最初的模型是使用监督学习下的微调来训练的,然后由人类来提供对话,在对话中他们互相扮演用户和人工智能助理,然后由人修正模型返回的回复,并用正确的答案帮助模型改进。

将制作的数据集与InstructGPT的数据集混合在一起,转换为对话格式。

其他相关模型包括LaMDA和PEER

Text-to-Code模型

和text-to-text类似,只不过生成的是特殊类型的文本,即代码。

Codex

该模型由OpenAI开发,可以将文本翻译成代码。

Codex是一种通用的编程模型,基本上可以应用于任何编程任务。

人类在编程时的活动可以分为两部分:1)将一个问题分解成更简单的问题;2)将这些问题映射到已经存在的现有代码(库、API或函数)中。

其中第二部分是对程序员来说最浪费时间的部分,也是Codex最擅长的地方。

人工智能大时代——AIGC综述

训练数据于2020年5月从GitHub上托管的公共软件库中进行收集,包含179GB的Python文件,并在GPT-3的基础上进行微调,其中已经包含了强大的自然语言表征。

相关模型还包括Alphacode

Text-to-Science模型

科研文字也是AI文本生成的目标之一,但要取得成果仍然有很长的路要走。

Galactica

该模型是由Meta AI和Papers with Code联合开发的,可用于自动组织科学文本的大型模型。

Galactica的主要优势在于即便进行多个episode的训练后,模型仍然不会过拟合,并且上游和下游的性能会随着token的重复使用而提高。

并且数据集的设计对该方法至关重要,因为所有的数据都是以通用的markdown格式处理的,从而能够混合不同来源的知识。

人工智能大时代——AIGC综述

引文(citations)通过一个特定的token来处理,使得研究人员可以在任何输入上下文中预测一个引文。Galactica模型预测引文的能力会随着规模的提升而提高。

此外,该模型在仅有解码器的设置中使用了一个Transformer架构,对所有尺寸的模型进行了GeLU激活,从而可以执行涉及SMILES化学公式和蛋白质序列的多模态任务,

MinervaMinerva的主要目的就是解决决数学和科学问题,为此收集了大量的训练数据,并解决了定量推理问题,大规模模型开发问题,还采用了一流的推理技术。

Minerva采样语言模型架构通过使用step-by-step推理来解决输入的问题,即输入是需要包含计算和符号操作,而不用引入外部工具。

其他模型

还有一些模型不属于前面提到的类别。

AlphaTensor

由Deepmind公司开发,因其发现新算法的能力,在业界是一个完全革命性的模型。

在已公布的例子中,AlphaTensor创造了一种更有效的矩阵乘法算法。这种算法非常重要,从神经网络到科学计算程序都可以从这种高效率的乘法计算中受益。

人工智能大时代——AIGC综述

该方法基于深度强化学习方法,其中智能体AlphaTensor的训练过程就是玩一个单人游戏,目标是在有限的因子空间内寻找张量分解。

在TensorGame的每一步,玩家需要选择如何结合矩阵的不同entries来进行乘法,并根据达到正确的乘法结果所需的操作数量来获得奖励分数。AlphaTensor使用一种特殊的神经网络架构来利用合成训练游戏(synthetic training game)的对称性。

GATO

该模型是由Deepmind开发的通用智能体,它可以作为一个多模态、多任务或多embodiment泛化策略来使用。

具有相同权重的同一个网络可以承载非常不同的能力,从玩雅达利游戏、描述图片、聊天、堆积木等等。

人工智能大时代——AIGC综述

在所有任务中使用单一的神经序列模型有很多好处,减少了手工制作具有自身归纳偏见策略模型的需要,并增加了训练数据的数量和多样性。

这种通用智能体在大量任务中都取得了成功,并且可以用很少的额外数据进行调整,以便在更多的任务中取得成功。

目前GATO大约有1.2B个参数,可以实时控制现实世界机器人的模型规模。

人工智能大时代——AIGC综述

其他已发表的生成性人工智能模型包括生成human motion等。文章来源地址https://www.toymoban.com/news/detail-416944.html

到了这里,关于人工智能大时代——AIGC综述的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 人工智能时代AIGC绘画实战

    送书第一期 《用户画像:平台构建与业务实践》 送书活动之抽奖工具的打造 《获取博客评论用户抽取幸运中奖者》 送书第二期 《Spring Cloud Alibaba核心技术与实战案例》 送书第三期 《深入浅出Java虚拟机》 送书第四期 《AI时代项目经理成长之道》 送书第五期 《Kubernetes原生

    2024年02月05日
    浏览(58)
  • 步入AIGC时代,展望人工智能发展

    3 月 18 日,由中国图象图形学学会 ( CSIG ) 主办,合合信息、 CSIG 文档图像分析与识别专业委员会联合承办的 “ CSIG 企业行 ” 系列活动取得了圆满成功。活动主题为“图文智能处理与多场景应用技术展望”,活动中重点分享了图像文档处理中的结构建模、底层视觉技术、跨媒

    2024年02月02日
    浏览(50)
  • 人工智能时代:AIGC的横空出世

    🌈个人主页: 聆风吟 🔥系列专栏: 数据结构、网络奇遇记 🔖少年有梦不应止于心动,更要付诸行动。 随着人工智能技术的不断发展,我们进入了一个信息爆炸的时代,信息量庞大,但也难免产生了信息过载的问题。为了解决这一问题,人工智能生成内容技术(AIGC)应运

    2024年02月05日
    浏览(70)
  • 人工智能革命:共同探索AIGC时代的未来

    随着大数据和强大的计算能力的兴起,人工智能技术(AI)正在快速发展,并为各个领域带来革命性的变化。人工智能与智能计算技术(AIGC)的融合不仅为企业、科研机构和普通用户提供了巨大的机遇,也带来了一系列新的挑战。本文将探讨AIGC的应用领域,包括医疗保健、交

    2024年02月03日
    浏览(58)
  • 生成式人工智能(AIGC)综述:ChatGPT从GPT-4到GPT-5可以一统AIGC?

    原文题目: 《A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?》 文章链接: https://arxiv.org/abs/2303.11717 https://arxiv.org/abs/2303.11717 引言: 随着ChatGPT的火热传播,生成式AI(AIGC,即AI生成的内容)因其分析和创造文本、图像等能力而在各地引起了轰动。在如此强

    2024年02月09日
    浏览(53)
  • 创世纪:AIGC引领人工智能时代的崭新篇章

    🍎个人主页 🏆 个人专栏 : 日常聊聊 ⛳️  功不唐捐,玉汝于成 目录 ​编辑 前言: 目标和特点: 技术基础: 训练和学习: 应用领域: 结语: 我的其他博客 在当今数字化快速发展的时代,人工智能技术正不断演进,为我们的生活和工作带来了翻天覆地的变化。其中,

    2024年02月04日
    浏览(59)
  • 【小聆送书第二期】人工智能时代AIGC重塑教育

    🌈个人主页: 聆风吟 🔥系列专栏: 网络奇遇记、数据结构 🔖少年有梦不应止于心动,更要付诸行动。 参与活动方式文末详见。      AI正迅猛地改变着我们的生活 。根据高盛发布的一份报告,AI有可能取代3亿个全职工作岗位,影响全球18%的工作岗位。在欧美,或许四

    2024年02月05日
    浏览(65)
  • 新书推荐:《AIGC未来已来——迈向通用人工智能时代》

    AIGC为何引发关注? ChatGPT会成为人工智能的拐点吗? GPT-4未来已来,奇点时刻该如何面对? 人类的创新能力会被AIGC替代吗? 当下有哪些典型的AIGC变现手段? AIGC的不足与挑战? AIGC(Artificial Intelligence Generated Content)中文译为“人工智能生成内容”。狭义上的AIGC指利用AI自动生

    2024年02月09日
    浏览(91)
  • AIGC专题报告:生成式人工智能人人可用的新时代

    今天分享的 AIGC系列 深度研究报告:《 AIGC专题报告:生成式人工智能人人可用的新时代 》。 (报告出品方:埃森哲) 报告共计:21页 ChatGPT 正在唤醒全球对人工智能(AI) 变革潜力的认知,激发起前所未有的关注和创造力浪潮。该技术可以模仿人类的对话和决策能力,使我

    2024年02月05日
    浏览(65)
  • AIGC主题会议预告 | 人工智能时代,如何让AI帮你打工?

    科技圈和创投圈好久都没有这么兴奋了,自从AI绘画和Chat GPT的出现,让更多企业越发关注AI的各种新动向了。随着ChatGPT、GPT-4的爆火,人们纷纷将目光投向了AIGC(AI Generated Content)行业。跟紧OpenAI的步伐,百度推出文心一言,Adobe推出生成式AI Firefly,谷歌也开放了聊天式机器

    2024年02月13日
    浏览(64)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包