借助 Amazon Bedrock 构建 AI 漫画视频生成器

这篇具有很好参考价值的文章主要介绍了借助 Amazon Bedrock 构建 AI 漫画视频生成器。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

关键字: [Amazon Web Services re:Invent 2023, Amazon Polly, Comic Video Generator, Story Script Generator, Image Generator, Character Inconsistency, Out Of Focus Images, Fine Tuning Stable Diffusion]

本文字数: 1800, 阅读完需: 9 分钟

视频

如视频不能正常播放，请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1mc411m7nB

导读

了解 Amazon Machine Learning Hero Agustinus Nalwan 是如何创建一款由人工智能驱动的睡前故事机 Owly，来用于制作带有音乐的个性化漫画视频。在本讲座中，您将了解如何使用 Amazon Bedrock 大型语言模型生成漫画脚本。了解如何在 Amazon SageMaker JumpStart 的帮助下对稳定扩散模型进行微调，以消除角色的不一致性，并以孩子们心爱的玩具为主角制作个性化的漫画视频。深入学习提示工程技术，学习如何使用稳定扩散模型将两幅图像融合在一起。

演讲精华

以下是小编为您整理的本次演讲的精华，共1500字，阅读时间大约是8分钟。如果您想进一步了解演讲内容或者观看演讲全文，请观看演讲完整视频或者下面的演讲原文。

演讲者满怀热情地向观众介绍自己，作为一名热衷于运用技术和人工智能创作出有趣项目的人。特别是在他的儿子Dexie身上，他投入了大量的时间和精力。这段旅程始于六年前，当时他的妻子怀孕，他们根据各种迹象确信将要迎来一个女婴。为此，他们花费了无数小时进行头脑风暴，讨论并争论着心仪的女孩名字，最终列出了50多个选项，如Hayley、Sophie和Lucy。然而，令他们惊讶的是，20周时的一次超声波检查结果显示，他们即将迎接的是一个男孩！这意味着他们不得不重新开始整个命名过程。

在一个宁静的周六早晨，演讲者决定尝试使用AI来生成一个原创名字。他在网上查找了大量的日本和俄罗斯名字，并尝试使用一个混合这些名字的模型。然而，生成的奇怪名字Vladiko Honda Petrov可能让孩子在未来遭受欺凌，所以这个实验并未成功。

直到2020年12月，Dexie出生，真正的欢乐开始了。演讲者分享了如何享受与Dexie一起玩游戏的机会，尽管后者还无法掌控那些具有多个按钮和摇杆的复杂控制器。为了给他的小儿子带来游戏体验，演讲者决心研究出一个解决方案。这导致了一个名为“Project Ring”的项目诞生，该项目包含一个能够实时追踪Dexie全身动作的相机，将其转化为3D游戏世界中的飞鸟控制。演讲者已经将一个游戏引擎改造，并与他用简单的网络摄像头和OpenCV自制的手势捕捉系统集成了起来。如今，当Dexie看到屏幕上准确地模拟他自己的拍动翅膀动作的鸟时，他会完全沉浸其中，快乐地玩耍数小时。演讲者在向他的儿子展示科技的奇迹和AI的魅力。

尽管演讲者已经取得了一定的成功，但他并未满足于此。接下来，他设计了一个特别的项目，旨在帮助他的妻子Yi在早晨为上班做准备。他描述了Yi是如何经常站在满柜子的衬衫、裙子、裤子和鞋子面前，向他提问“我今天应该穿什么？”这个问题让他感到困惑，因为他的简约时尚观念通常只包括简单的T恤和牛仔裤。由于缺乏为妻子提供合适建议的风格直觉（她有大量的职业服装选择），他知道他需要找到一个解决这个日常困境的方法。

为了解决这个问题，他开发了一个名为Project F的人工智能时尚助手。这个系统通过设置在面向门口摄像头，捕捉到Yi每天早晨离开家的画面。使用亚马逊Rekognition构建的定制面部识别软件可以在图像中识别她并记录她的装束的精确细节。同时，从外部API获取的天气数据被记录在MySQL数据库中。Yi然后可以通过演讲者使用React Native构建的移动应用程序浏览这个数字时尚日历。

通过一些聪明的AI算法分析天气模式、服装特点和颜色趋势，该应用程序实际上可以每天为Yi推荐最佳的服装搭配。演讲者使用TensorFlow训练着装搭配模型，收集图像、天气数据和Yi的时尚偏好。

此外，演讲者在2020年12月开始了他最近也是最雄心勃勃的项目，他将其称为Project Ellie。在这个项目的背景下，他们的城市正处于COVID-19封锁期间，封锁已经持续了264天，这是澳大利亚最长的封锁时间。在这种情况下，人们感到沮丧和压力重重，因为无处可去，几乎没有什么事情可做。

为了应对这种困境，现在4岁的Dexie有一个最喜欢的玩具熊，一只名叫Ella的泰迪熊。演讲者利用一个相同的备用熊，开始着手改造它，使其成为一个机器人AI伴侣。他在它的眼睛中安装了一个摄像头，在肚子中安装了一个扬声器和Raspberry Pi迷你计算机，并通过Arduino板驱动的4个伺服电机来移动头部。但真正的核心是一个类似于GPT-3的大型语言模型，运行在Amazon EC2实例上，实现了非常自然的对话。

在德国的一次偶然相遇中，德西遇到了一只名叫艾莉的熊，令他惊讶的是，这只熊竟然能用流畅且类似人类的方式回应他。演讲者播放了一段德西与熊艾莉聊天的简短视频，展示了令人难以置信的效果。这个自然语言处理模型是通过在对话数据上进行训练来提高其对话能力。

在回顾过去取得的成就之后，演讲者进入了他在2022年的最新追求——开发一个能自动生成2分钟个性化漫画视频的AI系统，专为5岁的德西讲述有趣的睡前故事。他曾亲自创作过包含道德教训的原创故事，但在连续即兴讲述故事约6个月后，他的创意枯竭了。

该项目的主要目标是创建包含德西自己心爱的玩具照片的定制视频，以展示故事情节，同时还包括合成的音频旁白、背景音乐和视觉效果。演讲者展示了一个名为“会飞的乌龟”的示例视频，这是艾莉根据给定的简短文本提示自动生成的。视频中包含了德西的海龟玩具在各种冒险中的画面，以及AI生成的图形。

演讲者随后提供了一份关于这个基于亚马逊云科技的自动化视频生成系统的简要概述。该系统首先接收一个短文本提示，例如“编写一个关于鲍勃企鹅欧洲之旅的2分钟故事。”然后将此文本输入到一个使用Anthropic的Claude（亚马逊Bedrock ML服务中强大的大型语言模型）构建的故事脚本生成器中，以创建一个完整的700字故事，分为5个部分。

这些段落被提取出来，每个段落都发送到一个专门的漫画图像生成器，即运行在亚马逊SageMaker上的Stable Diffusion 2.1，以根据场景描述找到相关的图像。同时，整个旁白通过Amazon Polly合成类似人类的音频。Claude会根据故事中的关键词从提供的列表中选择适当的音乐风格，包括轻快、戏剧性、轻松等。最后，一切都被整合成一个连贯的MP4视频文件，使用Python库MoviePy并保存在一个S3存储桶中。

尽管初步实施取得了一定的成果，但演讲者面临着两个主要挑战：

在不同段落中，企鹅主角的存在一致性出现了矛盾。这是由于在生成图像时，没有考虑到之前的上下文，而是独立地进行生成。当段落包含多种观点时，图像会变得模糊不清。为了解决这个问题，对图像生成器进行了改进，为每个段落提供一个简短的概括语句，以便描述场景。这样，图像生成器只需使用这个聚焦的句子作为上下文，就能在所有五个场景中正确呈现企鹅形象。

针对模糊图像的问题，采用了名为微调的技术。这包括将5-10张标注为“鲍勃企鹅”（主角）的示例图像提供给在SageMaker上运行的Stable Diffusion模型。将这些图像识别为描绘角色“鲍勃企鹅”有效地教会了模型鲍勃独特的视觉特征。因此，模型能够可靠地生成任何场景中正确的企鹅的清晰、聚焦的图像。

为了展示微调的强大功能，演示了一个例子，即仅在3张标注为“小鸡”的婴儿图像上训练Stable Diffusion模型，就能生成具有羽毛和喙等雏鸡特征的猫图像。这表明混合概念的潜力是无限的，只受想象力的限制。

演讲者接着详细介绍了如何使用亚马逊云科技服务，如S3、Bedrock、SageMaker、Polly和Batch来构建端到端的复杂系统，以实现自动整合一切。最后，演讲者强调了新一代的生成性AI如何以前所未有的方式创造令人愉快的项目。亚马逊云科技的最新的AI服务和模型使得即使对非工程师来说，构建这些系统也变得出人意料地容易获取。随着自然语言处理、计算机视觉和云计算的快速发展，演讲者鼓励观众开始利用这些技术，他们自己来构建梦想中的生成性AI应用！

下面是一些演讲现场的精彩瞬间：

领导请求观众们举手，以了解有多少人是从事数据科学、软件开发和熟悉GPT等AI系统工作的专业人士。