多模态逆天图片生成,OpenAI又一力作:DALL·E 2

这篇具有很好参考价值的文章主要介绍了多模态逆天图片生成,OpenAI又一力作:DALL·E 2。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.DALL . E 2:集艺术之大成

还记得2021年刷爆AI圈的DALL·E,它是基于文本token来生成超现实主义的图像,比如下面的牛油果形状的椅子
多模态逆天图片生成,OpenAI又一力作:DALL·E 2
最近,OpenAI基于其1.0版本进行了升级,发布了DALL·E 2。该版本除了可以像1.0版本一样,从自然语言的描述中创建逼真的图像和艺术,还可以:

  • 对现有生成的图片进行二次创作添加和删除元素的阴影,反射,和纹理。
  • 根据现有图片进行风格迁移
  • 生成高像素的图片

二次创作:编辑图像
例如在下面图中,旋转一个位置放置火烈鸟:
多模态逆天图片生成,OpenAI又一力作:DALL·E 2

风格迁移
根据提供的一张图片,生成另一种风格
多模态逆天图片生成,OpenAI又一力作:DALL·E 2

生成高像素的图片
对比于1.0版本,升级之后的DALL能够生成更高像素的图片:
多模态逆天图片生成,OpenAI又一力作:DALL·E 2

一些网友已经纷纷开启试用:

文本内容:1980年代,泰迪熊在月球上进行人工智能研究
多模态逆天图片生成,OpenAI又一力作:DALL·E 2
文本内容:蒙娜丽莎在喝酒
多模态逆天图片生成,OpenAI又一力作:DALL·E 2
从上面可以看出,DALL.E 2生成的效果可以和画家画出的图片媲美。

体验网址如下(不过需要加入waitlist):https://labs.openai.com/waitlist

2. 技术细节

2.1 CLIP

CLIP是基于文本-图像对的预训练方法,它主要是通过对比学习思想,来匹配对应的图像和其文字描述。其中包含了text-encoderimage-encoder。对于一个包含 N N N个文本-图像对的数据集来说,对比学习就是将N个图像和N个文本进行两两匹对,然后预测出其相似概率。其中只有 N N N个是正样本(图中对角线元素),其余 N 2 − N N^2-N N2N为负样本。
多模态逆天图片生成,OpenAI又一力作:DALL·E 2
CLIP模型可以直接实现zero-shot分类,即不需要任何训练数据,就能在某个具体下游任务上实现分类。

  • 根据任务构造分类标签文本:A photo of {label},通过text-encoder得到对应的文本特征
  • 将要预测的图像经过image encoder得到输出特征,然后与第一步的输出进行余弦相似计算,得到预测概率
    多模态逆天图片生成,OpenAI又一力作:DALL·E 2

2.2 DALL.E 2具体方法

在训练集上构成 ( x , y ) (x, y) (x,y),其中 x x x为图片, y y y为其说明文字。给定图片 x x x z i z_i zi表示CLIP模型生成的图像特征, z t z_t zt表示CLIP生成的文本特征。
多模态逆天图片生成,OpenAI又一力作:DALL·E 2

生成图片主要有两个步骤:

  • 利用真实文本描述 y y y ,通过CLIP生成的图像特征 z i z_i zi
  • 利用真实文本描述 y y y和CLIP生成的图像特征 z i z_i zi,解码成图片 x x x

3.后续

图像生成工具一直是黑产可利用的工具之一。在限制措施上,OpenAI限制了DALL·E 2生成暴力、仇恨或成人图像的能力。同时还使用了先进的技术来防止生成真实人物的脸,包括公众人物的脸照片生成。

如果过滤器识别出可能违规的文本提示和图像上传,将不会生成图像。这样将会有效的减少DALL.E 2工具的滥用。

目前DALL.E 2还处于测试阶段,OpenAI一直寻找外包专家合作,并将提供给一定量的可信任用户使用。官网中提到:随着时间的推移,将计划邀请更多的人来预览这项研究,以了解并不断改进我们的安全系统。文章来源地址https://www.toymoban.com/news/detail-487813.html

到了这里,关于多模态逆天图片生成,OpenAI又一力作:DALL·E 2的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • OpenAI的DALL·e2生成的AI图像有时会带有偏见或NSFW

    专家警告说,OpenAI的图像生成模型DALL·e2可能玩起来很有趣,但它生成的图片可能会带有刻板印象和偏见,甚至是生成NSFW图片,因此在现实世界中部署会有风险。 OpenAI公司承认“ 如果没有足够的防护措施,像DALL·e2这样的模型可能会被用来产生具备广泛的欺骗性和其他有害内

    2024年02月19日
    浏览(54)
  • 【多模态-文字生成图片】多模态API接口文档-以文生图,输入文字生成图片的方式,多模态api,和midijouney类似的ai绘画平台

    通过用户输入文字来生成图片, 天启开放平台:多模态API接口文档-以文生图,输入文字生成图片的方式,多模态api https://tianqi.aminer.cn/open/document/mm_ref/cogview 和midijouney类似的ai绘画平台。 流程图: api 调用平台代码:

    2024年02月16日
    浏览(50)
  • 如何使用 ChatGPT 为 Midjourney 或 DALL-E 等 AI 图片生成提示词

    人工智能为创意产业开辟了一个充满可能性的全新世界。人工智能最令人兴奋的应用之一是生成独特且原创的艺术品。Midjourney 和 DALL-E 是人工智能生成艺术的两个突出例子,吸引了艺术家和艺术爱好者的注意。在本文中,我们将探索如何使用 ChatGPT 生成 AI 图片模型提示。 如

    2024年02月14日
    浏览(54)
  • 【AIGC】spring+openAI轻松生成图片

    ChatGPT 是由 OpenAI 开发的强大语言模型,可以用于生成类似人类的文本。OpenAI API 允许开发人员访问该模型并在其自己的应用程序中使用。在本文中,我们将讨论如何使用 Java Spring Framework 与 OpenAI API 生成图像。 在开始之前,您需要在 OpenAI 网站 “https://beta.openai.com/account/api-

    2024年02月09日
    浏览(86)
  • 多模态——使用stable-video-diffusion将图片生成视频

    近期,stabilityAI发布了一个新的项目,是将图片作为基础,生成一个相关的小视频,其实也算是其之前研究内容的扩展。早在stable-diffusion的模型开源出来的时候,除了由prompt生成图片之外,也可以生成连续帧的短视频。 本文主要是体验一下stable-video-diffusion的使用,以及对其

    2024年02月05日
    浏览(89)
  • ChatGPT4.0知识问答、DALL-E生成AI图片、Code Copilot辅助编程,打开新世界的大门

    支持在线修改和图片导出。走一个~ (1)画一个会飞的猪 (2)通过选择select,对会飞的猪进行润色 (3)画一个花色翅膀 (4)来一个难的,根据斗罗大陆的设定,添加一个十万年魂环,哈哈 我记得金色魂环是百万年的了,哈哈。不过还可以理解。 (5)根据斗罗大陆的设计

    2024年04月29日
    浏览(55)
  • 首个中文Stable Diffusion模型开源,玩转“中文-图片”的跨模态生成任务

    前言: 文本描述图片生成模型stable diffusion models大火的第4个月,首个中文stable diffusion models正式开源!基于0.2亿筛选过的中文图文对训练,能够轻松实现“中文-图片”的跨模态生成,感兴趣的小伙伴快来一起玩一玩吧! 目录 模型信息 震撼效果 体验地址 使用方法

    2023年04月17日
    浏览(46)
  • 【多模态】DALL·E 2 笔记

    论文题目:《Hierarchical Text-Conditional Image Generation with CLIP Latents》(使用CLIP特征的 层次文本条件图像生成) 首先训练一个 CLIP 模型,进行图片-文本对的对比学习,训练得到一个 text encoder 和一个 img encoder,然后将 text encoder 固定住,拿来进行 DALL·E 2 的训练。 先经过一个 pr

    2024年02月11日
    浏览(43)
  • 国内前端vue对接OpenAI/chatgpt【文本互动/生成图片】

       如图;国内通过调用openai接口进行互动,实现图文互动/文本互动  注意:请求人数较多,需要等待   1、🔔 获取ApiKey 注册 OpenAI 账号,获取你的 ApiKey,过程略。 2、💬 聊天接口 ⚠️ 不再推荐使用本接口,后面将废弃。 接口地址 ( POST请求 ) POST https://api.openai.com/pro/cha

    2023年04月20日
    浏览(69)
  • OpenAI又一神器!Whisper 语音转文字手把手教程

    语音转文字在许多不同领域都有着广泛的应用。以下是一些例子: 1.字幕制作:语音转文字可以帮助视频制作者快速制作字幕,这在影视行业和网络视频领域非常重要。通过使用语音转文字工具,字幕制作者可以更快地生成字幕,从而缩短制作时间,节省人工成本,并提高制

    2024年02月09日
    浏览(60)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包