关门测试的 DALL·E 2 昨日放出消息,说刚向社区投放了 1000 个内测名额,赶紧奔去查我的邮箱!没有!还是没有,向几位我认识搞机器学习的大佬们托了人情也不行,没有插队的!(奔走掩面甩泪)
为什么那么多人在翘首期盼 DALL·E 2,看看下面这个创作实验就明白了。
这个实验文章的作者是 Tom Mason,Disco Diffusion 的开发者之一,为 DD 添加了 VR 模块。跟他一起做对照实验(DALL·E 2 那边)的是 Scott Gray @scottgray76,Openai 公司的 GPU Geek。
我跟 Tom Mason 在推上有过一些交流,所有内容及实验结果均经过作者本人授权翻译发布。
同样的 Prompt,DALL·E 2 跟 Disco Diffusion 的创作对比
“我在 Twitter 上与 OpenAI 的 Scott Gray 聊了一下,因为他评论了我用 Disco Diffusion 创作的这张 “God out of the machine”。(见下面的第一组对比)
我使用 Disco 已经有一段时间了,喜欢它的一切。所以我想在 DALL·E 2 和 Disco Diffusion 做一些对比测试。
这些 Prompt 中有不少是我花了好长时间才想出来的,但说实话,把它们都藏着掖着也没什么意思。如果 OpenAI、DD 团队、Katherine Crowson 等都愿意开放他们的代码,我当然也可以分享 Prompt。我认为这最终会让大家都能够做出更好的艺术作品。
(译注:Katherine Crowson, @RiversHaveWings , 女,数据科学家、TTI 核心开发者,目前所有 Guided diffusion 模型的奠基者,也是她最初实现了 DD 的 notebook 化并 fine-tune 了 512x512 的扩散模型)
另外需要说明的是,Scott 跟我做的这个实验是在他没做任何准备的情况下开始的。我对如何设计给 DD 的 Prompt 已经颇有些心得了,但给 DALL·E 2 的 Prompt 可能需要针对其模型特点做一些调整,而 Scott 没有时间去做。所以基于这点,这个对比小实验可能略显不公。但实验结果仍然很有趣。
关于这一点,我真的很有兴趣发展更有针对性的艺术合作,例如围绕诗歌作为 Prompt 的动画(我目前正在为柯勒律治的《忽必烈汗》 Kubla Khan by Coleridge 制作视频。如果你有兴趣在跟我一起为这个项目贡献或一起去探索这种风格,请联系我。我认为很多艺术运动在过去都是这样兴起的,看到 AI 艺术社区能够这样去发展艺术子流派中将是很好的事,特别是在技术进步如此之快的情况下。每次新技术的发布都将 AI 艺术的准入门槛降低,所以我们必然应当不再只聚焦于技术的升级,而将注意力更多转向艺术创作本身?
(译注,《忽必烈汗》的英国诗人、哲学家和神学家——塞缪尔·泰勒·柯勒律治的长诗,英国浪漫主义诗歌代表作之一,写于约 1797)
Tom Mason 的视频项目最新版 :https://youtu.be/0H7vvC2oowY
在揭露这个有趣的实验之前,我只想说,感谢每一个为这些 TTI 项目工作的人,这是令人惊讶的前沿创新。我最近刚向开源社区做了一点小小的回报,完成了 DD 的 VR 模块,允许用户输出立体的 VR180,使用深度估计和变换(MiDaS)来生成左/右眼的影像。我还为 Pytorch 3D 写了一个新的球形投影变换。如果 OpenAI 的任何人看到这篇文章 – 请联系我们 DD 团队 – 他们已经建立了一个令人难以置信的动画创作系统,我们很愿意在通过一个合作项目中把它共享给 DALL·E 2。在实现流畅的动画方面,我们积累了大量学习经验,很愿意分享。
Prompt #1 — A view of God being created from the machine, dystopian, volumetric light, warm, unreal engine 3, by Felix Kahn
译:从机器中创造的上帝,神秘主义,体积光照,暖色调,虚幻引擎(权重: 3),Felix Kahn 风格。
Disco Diffusion
DALL·E 2
Prompt #2 — A scenic view of a Scottish loch in the Isle of Skye
译:斯凯岛一个苏格兰湖泊的风景图
Disco Diffusion
DALL·E 2
———爬行动物警告,害怕的同学请滚过 2 屏——
Prompt #3 — A lady in a long white dress lying amongst many large snakes, tropical jungle, by Prateep Kochabua
译:身穿白色长裙的女士躺在热带丛林的许多大蛇中间,Prateep Kochabua 风格
Disco Diffusion
DALL·E 2
Prompt #4 — A scenic view of the construction of the Great Pyramid of Giza, by Canaletto
吉萨大金字塔建设的风光图,Canaletto 画风
Disco Diffusio
DALL·E 2
Prompt #5 — Elephants drinking from a swimming pool outside a suburban house
译:大象在一家郊区房子的游泳池里喝水
Disco Diffusion
失败!Disco 在大象(和大多数动物)身上总是失败
DALL·E 2
Prompt #6 — A group of angels having a board meeting in a summer garden, by Asher Brown Durand
译:一群天使在夏日花园里开董事会,阿什·布朗·杜兰德的画风
Disco Diffusion
DALL·E 2
Prompt #7 — A close-up view of a man meeting the devil, by Caravaggio
译:一个男人与魔鬼会面的特写镜头,卡拉瓦乔画风
Disco Diffusion
DALL·E 2
Prompt #8 — A scenic view of a lake in the fjords, by David Noton
译:峡湾湖泊的风景,David Noton 画风
Disco Diffusion
DALL·E 2
Prompt #9 — A view of the gateway to the Great Temple at Baalbec, by Paolo Veronese
译:巴尔贝克大寺院的大门景观,保罗-维罗内塞 画风
Disco Diffusion
DALL·E 2
Prompt #10— A scenic view of the pleasure dome of Kubla Khan in the tropical jungle of Xanadu, by Asher Brown Durand
译:忽必烈在仙纳度热带丛林中的快乐穹顶小屋的风景,Asher Brown Durand 画风
Disco Diffusion
DALL·E 2
Prompt #11 — A beautiful wilderness in which a lonely monolith glowing, by Asher Brown Durand
译:美丽的荒野中一块孤独的方尖碑闪耀着光芒,Asher Brown Durand 画风
Disco Diffusion
DALL·E 2
译注:DALL·E 2 居然未能正确“理解” 方尖碑 (monolith)这一在科幻和史诗奇幻文化里如此标志性的文化符号,建议输入 2001: A Space Odyssey 的图像数据集训个五十遍。
感谢 Scott 陪我实验这些疯狂的 Prompt。DALL·E 2 看起来很棒,但很难分析出用什么样的 Prompt 可以对应输出什么样风格的作品。当然它的连贯性和保真度肯定是现在行业天花板。
激动人心的时刻在前头。
Tom Mason
https://twitter.com/nin_artificial
翻译完了。
根据我参与的一些跑图测试,我的感受和 Tom Mason 一致:DALL·E 在生成 生物体方面,结构比 DD 正常多了,腿不会从胳肢窝里长出来,眼睛也不会长在腮帮子上。当一个画面里有多种对象时,空间关系处理得非常好。高写实的艺术画风得心应手,生成照片的仿真度效果也都没得说,但缺一些像 DD 那样能完全出人意料的 “风格感”、“艺术感”(arty)。
Tom Mason 认为 DALL·E 2 较难用 Prompt 关键字去控制及预测作品的输出风格,我不是很同意。现在针对 DALL·E 2 的 Prompt engineering 远远不够量,我认为 DALL·E 2 的可控性、可预测性比 DD 强,但变化少,惊喜少。
另外,过去的一周我阅读了很多关于两代 DALL·E 的文档、报道和论文(不敢说看懂),准备好好写一写 DALL·E 这两代的技术亮点、实现方式、不同体裁和风格下的效果展示、以及它魔法的局限性和可能投下的阴影。还跟一些已经拿到内测资格的开发者及艺术家们搞了一些有意思的对比小实验。下周会发几篇文,请关注。
写东西很重要很有意思,可是玩 Prompt 和参数设置的瘾头一直在把我从工作中拖走,觉睡得少了,游戏更是没空玩了。最近被我忽悠入坑了不少人,大概你们都能感受这种引力。
来吧,把钱包掏出来买显卡!
00-人工智能辅助视觉艺术创作初探。AI 终于卷到了我头上……
文章来源:https://www.toymoban.com/news/detail-485980.html
AI 能理解和表达古诗意境吗?来看看西乔用人工智能辅助创作的古风插画(第一辑)
文章来源地址https://www.toymoban.com/news/detail-485980.html
到了这里,关于AI art 实验:同样的Prompt, DALLE2 跟 Disco Diffusion 的创作大比拼的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!