ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

这篇具有很好参考价值的文章主要介绍了ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

✏️写作:个人博客,InfoQ,掘金,知乎,CSDN

📧公众号:进击的Matrix

🚫特别声明:创作不易,未经授权不得转载或抄袭,如需转载可联系小编授权。

前言

最近ChatGPT,想必大家已经是耳熟能详了,一度认为ChatGPT的到来是人工智能的奇点到来,那么到底ChatGPT是什么?为什么ChatGPT为代表的人工智能技术不仅受到平民用户的喜爱,还受到资本市场追捧呢?

上篇文章《ChatGPT研究(二)——AI平民化的里程碑》中从技术角度,解读ChatGPT的AI发展和应用,本篇文章将会更多的从商业场景使用中来介绍ChatGPT的应用。

AIGC多模态交互功能持续演化,奠定多场景商用基础

AIGC:利用人工智能产生内容,提升生产力曲线

  • AIGC: Artificial Intelligence Generated Context,即可以利用人工智能技术自动产生内容,常见如代码生成,文本问答等

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

ChatGPT已成为AIGC功能矩阵中的重要板块

  • ChatGPT是AIGC“数字内容智能编辑”功能中的重要组成部分,ChatGPT模型的出现对于文字/语音模态的AIGC应用具有重要意义

✔️ 随着深度学习技术的快速突破以及数字内容的海量增长,AIGC领域相关技术打破了预定义规则的局限性,使得快速便捷且智慧地输出多模态的数字内容成为可能。
✔️ 在技术创新以及多模态模型的持续突破下,AIGC根据功能和对象的不同,按顺序可包括三种主要实用功能: 数字内容孪生,数字内容的智能编辑、数字内容的智能创作
这三种功能相互嵌套与结合,可以让AIGC产品具备超越人类的创作潜力。而ChatGPT正是AIGC的数字内容编辑这一大功能领域中的重要组成部分

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

AIGC相关技术包含了三大前沿能力

  • 数字内容孪生能力构建现实世界-虚拟世界映射

孪生能力包括智能增强与转译技术,其中增强技术弥补内容数字化过程中的信息损失,转译技术在理解基础上对内容进行多种形式的呈现

  • 数字编辑能力打通现实世界虚拟世界交互通道

编辑能力包括智能语义理解与属性控制,语义理解帮助实现数字内容各属性的分离解耦,属性控制则在理解基础上对属性进行精确修改、编辑与二次
生成,最终反馈于现实世界,形成孪生-反馈闭环

  • 数字创作能力从数据理解走向数据创作

创作能力可分为基于模仿的创作与基于概念的创作,前者基于对某一类作品数据分布进行创作,而后者从海量数据中学习抽象概念,并基于概念创作出现实世界不存在的内容

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

AIGC行业发展经历了三个主要时期

AIGC发展经历了早期萌芽、沉淀积累和2014年之后的快速发展阶段

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

从分析式AI到生成式AI逐步演化,生成式AI赋予AIGC创新力

  • 生成式AI起源于分析式AI,分析式AI发展过程汇总的技术积累为生成式AI的产生奠定基础

分析式AI其学习的知识局限于数据本身;生成式AI在总结归纳数据知识的基础上可生成数据中不存在的样本
最新生成式AI技术如GAN,Diffusion等,催生多款AIGC产品如:OpenAI系列、DALL·E2(Diffusion),Starry A.I.(基于GAN)等

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

AIGC:学习范式更新奠定基础,模型结构升级助力腾飞

  • 人工智能技术推动AIGC行业不断发展,其中学习范式的更新赋予AI模型主动学习能力,模型结构升级提升AI模型学习,归纳与创新能力

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

AIGC产业链涵盖了从硬件到多类终端应用的广泛领域

  • AIGC关联产业可分为应用层、模型层、云计算平台与计算硬件层

计算硬件层结合云计算平台为AIGC提供机器学习训练与推理算力,其 中GPU与TPU为硬件核心,主要参与厂商包括英伟达(GPU)与谷歌 (TPU);
云平台参与厂商则包含AWS,GCP,Azure以及 Coreweave;计算硬件层中云计算平台厂商分布稳定,竞争出现于模型 层面与应用层面

模型层面,闭源基础模型提供商如OpenAI通过API向用户提供服务, 而开源基础模型则通过在托管平台如Hugging Face、Replica公开模 型权重。
模型训练其高计算力需求推动了模型层厂商与云计算厂商建 立合作关系(如 OpenAI+Azure,GCP+DeepMind。模型层面闭源 模型较为普遍,各厂商依靠模型建立技术壁垒。

在应用层面,MidJourney,Runway等自主研发、持有模型;而 Jasper,Github Copilot则通过调用闭源模型商提供的API或采用托管 平台共享的模型。

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

AIGC产业链上下游玩家百家齐放

  • AIGC上游主要包括数据供给方、算法机构、创作者生态以及底层配合工具等,中游主要是文字、图像、音频和视频处理厂商,其中玩家众多;下游主要是各类内容创作及分发平台以及内容服务机构等

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

AIGC厂商之间的竞争在于模型层面竞争

  • 追根溯源,AIGC依赖于底层机器学习模型产生内容,因此模型为AIGC行业厂商真正竞争力所在

文本生成产品多依赖GPT系列模型,自己训练的模型在图像/视频模态产品中较为普遍(图像/视频模态产品通常拥有自己训练的模型,而不是如文本模态调用OpenAI提供的模型服务)

  • 比较而言,OpenAI依靠模型建立先发竞争优势,技术到产品转化相对亮眼

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

AIGC取长补短,有望成为主流内容生产模式

  • AIGC所属内容生产生态的发展经历了专家生产内容(PGC)、用户生成内容(UGC)、AI辅助生产内容、AI生产内容 (AIGC)四个阶段,目前处于一、二阶段为主,第三阶段为辅的境况
  • AIGC克服PGC与UGC存在的 质量、产量 无法兼具的缺点,其有望成为未来主流的内容生产模式

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

AIGC生成技术可按模态进行分类

  • AIGC根据其内容模态不同可分为文本、视频、图像,音频与跨模态生成

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

AIGC不同模态对应着各种生成技术及应用场景

  • AIGC不同模态对应的技术应用场景也有着各自的细分品类

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

AIGC文本生成技术场景可分为交互式和非交互式

  • AIGC非交互式文本生成技术中,结构化写作其形式相对固定,生成难度较小,商业化应用较为广泛;而创作型写作开放性 较大,在长文本生成中难度较大,仍需技术进一步发展
  • 随着通信互联网技术发展,线上社交需求快速增长,如闲聊机器人等交互式文本产品将迎来快速发展

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

AIGC文本生成技术商业化落地有望优势先发

  • 文本领域预训练大模型技术成熟,文本领域细分垂类较多,产品数量居首位,模型数量发展超过其他模态技术
  • 数字内容中,文字模态数据远大于图片/视频/音频等,发展前景相对较大
  • 基于GPT-3的文字生成功能已嵌入如Writesonic、Conversion.ai、Copysmith等软件中,商业化前景相对清晰

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

AIGC图像生成技术随着模型结构的优化而明显提升

  • 模型结构不断进化提高了AIGC生产图像的多样性,但要求较高的功能实现还有待于技术的进一步提升

“图像编辑” 难度低于“图像生成” 与“2D-3D” 转换,目前已存在多款产品支持“图像编辑” ,而对于“图像生成”任务,由于图片相
较包含更多元素,其生成效果仍存在不稳定性,对于要求较高的功能类图像生成仍需要技术上的提升

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

AIGC音频生成技术正朝更富情感等人类特征演化

  • 文本到语音任务已比较成熟,语音质量已达到自然的标准,未来将朝更富情感、富韵律的语音合成以及小样本语音学习方向发展

音乐生成任务中仍需解决音乐数据难以标注的问题,数据标注其颗粒度大小影响音乐生成任务的可控性。若可控性得以解决,则可指定风格、
情绪等因素的音乐生成任务有希望在影视、游戏等场景下的到大量应用。

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

视频生成 为AIGC应用生态中的高潜力场景

  • 视频生成本质上与图片生成类似,通过对视频进行帧数级别的切割,实现对每一帧的处理

视频生成过程包括三个阶段:数据的提取、训练和转换,当前技术正在着重提升视频修改精准度和实时性两个维度。鉴于视频本身的文本、图像和音频的综合属性,
视频生成也是跨模态生成领域的重要应用场景。

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

跨模态生成技术是真正实现认知和决策智能的转折点

  • 现实世界的信息是文本、音频、视觉、传感器以及人类各种触觉的综合体系,要更为精准地模拟现实世界,就需要将各种 模态能力之间打通,例如文字-图像、文字-视频等跨模态生成能力

大型预训练模型的发展使得跨模态逐步成熟,“文本-图像” 生成正在快速落地,“文字-视频”的实验效果也已较为理想(视频时长、 清 晰程度、 逻辑等还有较大提升空间)。

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

AIGC改变数字内容生产模式

  • AIGC作为新的内容生产模式,其具有内容多样,可控性强与生产效率高的优点,符合传媒,电商,影视,娱乐等行业对内容数字化程度高、内容多样以及内容更新快的要求,AIGC在以上行业逐渐替代传统内容生产模式的趋势十分显著

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

AIGC渗透传媒领域各个环节

  • AIGC技术逐渐渗透传媒领域包括采集、编辑、传播等环节,有助于加快内容生产效率,提高内容质量,扩宽内容影响力

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

AIGC化2D为3D,拓展电商展示维度

  • AIGC 2D图像生成3D模型技术为传统电商提供多维度的展示空间
  • 虚拟合成主播为客户提供更及时、可靠、亲和的服务体验

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

AIGC打破传统娱乐体验边界

  • AIGC技术打破物理边界,使粉丝可与偶像亲密互动,并形成新的发展点
  • AIGC为用户打开虚拟世界入口,通过趣味方式体验虚拟世界

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

AIGC拓宽影视行业创意边际

  • AIGC技术以其内容多样性为作品内容带来更多灵感
  • AIGC技术帮助拍摄突破物理限制,还原剧本效果,提高作品质量

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

AIGC促进各行业转型升级

AIGC技术在各行业数字内容相关领域均有发挥空间

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础


最后欢迎大家点赞、收藏、评论,转发!

欢迎大家关注我的微信公众号!随机分享无用的计算机知识,

微信搜索:进击的Matrix文章来源地址https://www.toymoban.com/news/detail-487651.html

到了这里,关于ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • ChatGPT实战100例 - (10) 提前体验ChatGPT的多模态绘图功能

    这个绘图其实比较基础,只能说是能显示个图吧 真要出图,隔壁 文心一言 秒杀 ChatGPT,没排上队的直接用 文心一格 - AI艺术和创意辅助平台 也很嗨啊。 据说 GPT-4 出了绘图功能,实际上ChatGPT 还不能直接用。 基本的思路还是靠 Markdown 结合三方网站功能 引入图片。 Unsplash 图

    2024年02月01日
    浏览(70)
  • aigc是什么,aigc和chatGPT的区别,aigc商业应用场景

     ​AIGC是Artificial Intelligence Graphics Computing的缩写,意为人工智能图形计算。它是一个涵盖了人工智能、计算机图形学和深度学习等领域技术的综合平台。其目的是将这些技术结合起来,实现更加高效、智能化的图像识别和处理,提升人机交互的用户体验。 aigc和chatGPT的区别

    2024年02月16日
    浏览(35)
  • ChatGPT研究报告:AIGC带来新一轮范式转移

    以ChatGPT为代表的AIGC(人工智能生成内容)将成为新一轮范式转移的开始。 需要声明,我并不是人工智能专业,只是在愈演愈烈的AI焦虑下,不想被这个技术潮流割韭菜,为此我特意搜集了大量资料,体系化的梳理了AIGC相关的信息。 本文约4000字,目标是快速建立AIGC知识体系

    2023年04月13日
    浏览(85)
  • 多模态 GPT-V 出世!36 种场景分析 ChatGPT Vision 能力,LMM 将全面替代大语言模型?

    LMM将会全面替代大语言模型?人工智能新里程碑GPT-V美国预先公测,医疗领域/OCR实践+166页GPT-V试用报告首发解读 ChatGPT Vision ,亦被广泛称为GPT-V或GPT-4V,代表了人工智能技术的新里程碑。作为 LMM (Large Multimodal Model) 的代表,它不仅继承了LLM (Large Language Model) 的文本处理能力,

    2024年02月08日
    浏览(43)
  • 计算机行业AIGC算力时代系列报告-ChatGPT芯片算力:研究框架

     简介 “AI算力时代已经来临,计算机行业正在经历着一场前所未有的变革!” 这是一个充满活力和兴奋的时代,人工智能(AI)已经成为了计算机行业中最为炙手可热的话题。随着技术的不断发展和进步,计算机的算力正在以惊人的速度提高,这将彻底改变我们的生活和工

    2023年04月25日
    浏览(39)
  • 真的!不用代码就能实现复杂的场景可视化大屏交互功能!

    在很多可视化项目中,如果想要实现场景可视化大屏交互的功能,程序员们总是需要敲很多代码,才能最终产出有效的交互效果,在这之中,如果出现个bug,那在一大串代码中寻找这个bug 的出处,又必然是一件让人头疼的事情。难道就没有一种不用敲代码就能实现场景可视化

    2024年02月11日
    浏览(37)
  • OpenAI将推出ChatGPT Plus会员新功能,有用户反馈将支持上传文件和多模态

    🦉 AI新闻 🚀 OpenAI将推出ChatGPT Plus会员新功能,有用户反馈将支持上传文件和多模态 摘要 :OpenAI为ChatGPT Plus会员推出了一些新功能,包括上传文件、处理文件和多模态支持。用户不再需要手动选择模式,ChatGPT会基于上下文进行自动猜测。这些功能让ChatGPT Plus会员能够享受到

    2024年02月07日
    浏览(42)
  • 中文版开源Llama 2同时有了语言、多模态大模型,完全可商用

    可以说,AI 初创公司 LinkSoul.Al 的这些开源项目让海外开源大模型在国内的普及和推广速度与国际几乎保持了一致。 7 月 19 日,Meta 终于发布了免费可商用版本 Llama 2,让开源大模型领域的格局发生了巨大变化。 Llama 2 模型系列包含 70 亿、130 亿和 700 亿三种参数变体,相比上

    2024年02月14日
    浏览(36)
  • AIGC: 关于ChatGPT中进行情感分析的功能

    概念 GPT是基于大模型去进行的机器学习的训练,对于机器学习相关的概念它是比较了解的 比如: 文本的分类, 文本的情感分析等等 相关的机器学习的功能,GPT如何支持?是否有相关接口供我们调用? 有的,文档地址: https://platform.openai.com/docs/api-reference/embeddings/create 基于这个接

    2024年02月04日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包