生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作

这篇具有很好参考价值的文章主要介绍了生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作,人工智能,娱乐,音视频,大数据

感谢大家阅读《生成式 AI 行业解决方案指南》系列博客,全系列分为 4 篇,将为大家系统地介绍生成式 AI 解决方案指南及其在电商、游戏、泛娱乐行业中的典型场景及应用实践。目录如下:

  • 《生成式 AI 行业解决方案指南与部署指南》

  • 《生成式 AI 在电商行业的应用场景实践 – 赋能营销物料高效生产》

  • 《生成式 AI 在游戏行业的应用场景实践 – 加速游戏美术内容生产》

  • 《生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作》(本篇)

背景介绍

从 2022 年以来生成式 AI 发展迅猛,特别是在文生图领域,在扩散模型为主、其他模型的加持下,新的文生图、图生图技术层出不穷。在媒体与娱乐领域已经被广泛应用,主要的场景有:1. 分镜头剧本插图;2. 漫画创作;3. 概念图生成。并随着技术的进步,形成比较完善的工具链。

尽管扩散模型和其应用在生成图片方面的能力出众,但是视频生成领域发展依然是滞后的。其原因主要有:没有高质量的训练集;没有很好描述视频的方式;生成式视频模型的训练需要极高的算力。

所以现在主流的利用扩散模型生成视频的方式是: 利用模版视频,拆解为视频帧图片,利用各种插件逐帧按照提示词和图片特征进行风格化,最后组合成风格化视频。

在本篇文章中,我们基于生成式 AI 行业解决方案指南,针对泛娱乐行业的风格化视频生成,介绍生成式 AI 的使用和参数配置,以及配合传统工具,以协助内容创作,达到一定的创意效果。

生成式 AI 在泛娱乐行业中视频创作

在泛娱乐行业,短视频是最流行的一种内容表达形式,其特点是制作成本较低,传播率高。传统的生成短视频的方式既有 UGC 模式,也有 PGC 模式,虽然他们的制作周期和制作成本远低于传统媒体,但是还是脱离不了“策划-剧本-台词-选角-排练-正式演出-录制-校验-剪辑-后期-审核-发布”这些基本的步骤。综合来说,一个 5 分钟左右的短视频制作平均时长大概 2-3 天左右。生成式 AI 的出现可以大大提高制作效率,缩短制作周期,甚至可以简化制作步骤。 

现在有生成风格化图片和生成风格化视频的生成方式,根据一些现有的图片和视频,或者初期拍摄的视频直接进入后期步骤。进行风格化是现在短视频生成的一种尝试,虽然现在这类视频依然有闪烁跳跃等问题,通过社区的不断进步,效果正越来越好。当然这类视频本身因为自由度较高,创意属性强,本身就具有较强的话题性和传播度。

主流的风格化视频的生产的方法是利用连续风格化图片作为序列帧串联起来的视频。包括:

1)通过原视频提取每一帧,逐帧通过提示词进行图生图,最后将图片重新组装起来生成风格化视频;

2)生成数张创意图片,作为关键帧,相似图片作为过渡帧,组装成风格化视频。

这两种风格化视频,都可以通过 Stable Diffusion WebUI 的插件来实现。但是这两种风格化视频生产方式依然具有一定需要解决的问题,各自分别是:

1) 模版视频拍摄依然需要一定投入,包括编排,表演,以及原始视频的版权问题等;

2 )风格化视频的主题难以定义。

本文给出了两种风格化视频的组合生成方式,可以充分利用目前风格化视频的插件,又可以部分解决风格化视频生产的上述问题:

  1. 利用 3D 模型的动态画面作为蓝本,生成风格化视频的方法

  2. 利用短暂的普通视频作为起点(或者中间节点)生成具有一定主题的风格化视频的方法

架构与工作原理

本篇以生成式 AI 行业解决方案指南为基础,其工作原理如下图:

生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作,人工智能,娱乐,音视频,大数据

生成式 AI 行业解决方案指南,将前端 Stable Diffusion WebUI 部署在容器服务 Amazon ECS 上,后端使用无服务器服务 Amazon Lambda 进行处理,前后端通过 Amazon API Gateway 调用进行通信。模型训练及部署均通过 Amazon SageMaker 进行。同时使用 Amazon S3、Amazon EFS、Amazon DynamoDB 分别进行模型数据、临时文件、使用数据的存储。快速部署流程可参考该系列博客的第一篇,本篇不再赘述。

3D 模型为蓝本生产风格化视频

首先我们先了解一下由原视频转换为风格化视频的基本原理,如下图所示:

生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作,人工智能,娱乐,音视频,大数据

参考步骤为:

  1. 原始视频拆解为视频帧序列

  2. 针对每一帧通过 Stable Diffusion 进行风格化,并用 ControlNet 对人物轮廓和姿态进行控制

  3. 将生成的新的序列帧重新组合成为视频

从视频生成视频的角度,原视频只是用于风格化视频的轮廓或者动作,使用真人或者实景拍摄的原视频成本还是比较高的;我们不妨使用一些低成本的 3D 模型,比如只有轮廓,没有贴图,调色器,面数很低的模型,作为蓝本进行视频生成。这里采用一个例子:生成一个具有 cyberpunk 风的女孩跳桑巴舞,和一般的视频风格化不同,这个例子中舞蹈动作比较复杂,并且没有版权的原视频作为模版,那么我们可以采用具体步骤如下:

1. 将低成本人物模型导入 Blender 或者 Unity3D,并生成桑巴舞蹈动画。这里我们选择从 mixamo.com 网站上下载一个人物跳舞的模型组件,并转换为原视频如下:

生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作,人工智能,娱乐,音视频,大数据

搭建基础 WebUI 环境并导入模型,按照根据生成式 AI 解决方案指南部署后,操作即可:

生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作,人工智能,娱乐,音视频,大数据

2. 导入视频,并输入提示词

使用提示词

Hyper realistic painting of a beautiful girl in a cyberpunk plugsuit, hyper detaled ,anime trending on artstation with mask (masterpiece:1.4), (best quality:1.2), (ultra highres:1.2) ,(8k resolution:1.0)

反向提示词

text, letters, logo, brand, close up, cropped, out of frame, worst quality, low quality, jpeg artifacts, ugly, duplicate, morbid, mutilated, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck

3. 进行视频风格化生成,打开 Mov2Mov 插件,这里的参数推荐如下:

Sample steps=20-30,
Generate movie mode=XVID,
CFG scale=7-10,
Denoising strength=0.2-0.3,
Movie frames=30,
Maxframe=60-90,
Controlnet 选择enabled,
Control weight 0.2-0.25。

点击生成后,得到的视频和原视频比较如下:

生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作,人工智能,娱乐,音视频,大数据

生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作,人工智能,娱乐,音视频,大数据

生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作,人工智能,娱乐,音视频,大数据

具有主题的风格化视频

Stable Diffusion 社区具有丰富的风格化视频生成插件,其中 Deforum 是热度最高的插件之一,其原理是确定时间轴上的关键帧使用明确 Prompt 生成的创意图片,关键帧之间的过渡视频帧采用渐进的方式,并配合一定的 2D,3D 空间旋转,产生独特的效果,这种方式的提示词一般都是剧本的形式,原理如图所示:

生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作,人工智能,娱乐,音视频,大数据

从风格化视频或者创意视频的角度,通过一定剧本转换为 prompt,再经过 Deforum 的串联,能达到表达一定主题的创意视频的效果,从制作角度这里还是有两个难点:

  1. 凭空写剧本很难将现实主题和创意视频进行关联;

  2. 创意视频/风格化视频效果本身还是由创意图片连接而成,很难把控其效果,并且视频生成消耗算力远大于图片生成,造成废片会导致算力浪费。

所以这里我们不妨在用简单的现实视频与创意视频交叉呼应的方式进行创作,这里的现实视频可能只需 2-3 秒的手机拍摄视频,并作为起始视频即可。这里采用一个例子:笔者参观某省级博物馆叙利亚文物展,突发感慨,想制作一个几十秒的风格化短视频,表达自己观看文物时感受的千年时代变迁,我们可以采用具体步骤如下:

1. 拍摄一段 3-5 分钟的自拍视频,表示初始主题,作为初始视频。由于目标是创意视频要发在社交媒体上,需要适配手机的尺寸,所以视频分辨率为 540*960

2. 准备 Web UI 的基本环境,包括模型和插件

3. 设置初始视频的某帧为初始帧,我们这里截取最后一帧为初始帧, 图像分辨率为 540*960,并在 Deforum 里设置初始帧,在 init tab 里选择 Use init,并填入文件地址

生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作,人工智能,娱乐,音视频,大数据

4. 设置提示词,并设置旋转参数。这里有参数列表和推荐值如下表

生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作,人工智能,娱乐,音视频,大数据

5. 编排适当的风格化提示词,并生成视频,这里提示词必须按照 JSON 格式,在这个规则的基础上,编排视频的情节

提示词如下:

{
“0”: “A Warrior in desolate landscape in Syria, with cracked earth, under a dark and stormy sky, Picasso style”,
“50”: ”  sunshine from the earth, ancient relics and mysterious symbols in Syria, Picasso style “,
“150”: “Egypt style building in Syria , Picasso style “,
“200”: “Rome style city with people from different races and cultures mingle and trade in the streets, markets in Syria, Picasso style “,
“250”: ” war between nations east and west of Syria,  the kings are seeking to preserve the balance of nature and magic, the other wanting to exploit it for power and profit, Picasso style “,
“300”: “gun smoke and flowers ,generals speech, Picasso style  “,
“450”: “bomb explosion on the sky, fires ,flames and smoke, blood and ashes , Picasso style -neg magnificent”,
“500”: “fate of people in the nation, peaceful hope, Picasso style”
}

反向提示词:

NSFW, worst quality, low quality, ugly, duplicate, morbid, mutilated, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck

6. 通过剪辑软件将现实视频与创意视频首尾呼应进行连接,得到完整视频,参考如下:

总结

在本文中,我们大致介绍了泛娱乐行业的视频内容制作场景中,通过不同插件和工具的配合,可以达到生成风格化视频和创意视频的目标。当然这只是冰山一角,在泛娱乐行业应用中,我们通过不断跟踪新的插件和模型,可以根据技术上的迭代达到泛娱乐内容的不断创新,同时和一些标准的媒体制作工具相结合,通过步骤的不断优化,达到可以高效生产创意内容的目的。

参考资料

1. 生成式 AI 行业解决方案指南:

https://aws.amazon.com/cn/campaigns/aigc/

2. 生成式 AI 行业解决方案指南 Workshop:

https://catalog.us-east-1.prod.workshops.aws/workshops/bae25a1f-1a1d-4f3e-996e-6402a9ab8faa

3. Stable-diffusion-webui:

https://github.com/AUTOMATIC1111/stable-diffusion-webui

4. Hugging Face:

https://huggingface.co/

本篇作者

生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作,人工智能,娱乐,音视频,大数据

明琦

亚马逊云科技行业解决方案架构师,主要负责媒体行业相关技术方案,并致力于泛娱乐行业中创新技术和客户体验相关解决方案的构建和推广,包括,虚拟现实,混合现实,生成式 AI,数字人等方向,具有多年的架构设计和产品开发经验。

生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作,人工智能,娱乐,音视频,大数据

白鹤

教授级高级工程师,亚马逊云科技媒体行业资深解决方案架构师,重点从事融合媒体系统、内容制作平台、超高清编码云原生能力等方面架构设计工作,在围绕媒体数字化转型的多个领域有丰富的实践经验。

生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作,人工智能,娱乐,音视频,大数据

汤哲

亚马逊云科技行业解决方案架构师,负责基于 Amazon Website Service 的云计算方案的咨询与架构设计,同时致力于亚马逊云服务知识体系的传播与普及。在软件开发、安全防护等领域有实践经验,目前关注电商、直播领域。

生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作,人工智能,娱乐,音视频,大数据

听说,点完下面4个按钮

就不会碰到bug了!

生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作,人工智能,娱乐,音视频,大数据文章来源地址https://www.toymoban.com/news/detail-648834.html

到了这里,关于生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 当ChatGPT应用在汽车行业,具体有哪些场景?

    ​ ChatGPT有潜力彻底改变汽车行业并将其提升到新的高度。在ChatGPT的加持下,该行业的多个领域都将取得重大变化。 利用ChatGPT作更高级的虚拟助理 你可能用过现有的虚拟助理,它们一系列的回复有时候让人不得不感叹一句“人工智障”!然而,ChatGPT则不同。凭借其大型语言

    2024年02月15日
    浏览(51)
  • 安科瑞产品在泛在电力物联网的应用

    安科瑞虞佳豪 泛在电力物联网是以通讯技术为基础发展而来的新型物联网体系,其构建的核心是满足电网能源系统的智能判断和自适应调节能力,这将提高能源的替代和利用能力。对于电力物联网来说,通讯技术是其核心的技术内容之一,也是实现万物互联基本的组成单元,

    2024年02月10日
    浏览(45)
  • 聚焦六大典型应用场景,博云金融行业容器解决方案更新发布!

    随着云原生技术逐渐成熟,以其轻量化、弹性伸缩、环境一致性等特点,颠覆了传统应用的开发和运维方式,为传统金融企业的业务转型升级提供了革命性解决方案。因此,众多金融企业开始将业务应用进行容器化部署,以期实现业务应用开发的敏捷迭代、运行环境的快速就

    2024年01月25日
    浏览(48)
  • 行业前沿 | 畅想AIGC技术研究与应用实践(一)

    AIGC的火热之势已经蔓延到各行各业,技术浪潮冲击下,关于AIGC创业、AIGC未来发展方向以及AIGC的应用实践等,企业、投资者以及技术产品专家们有着不一样的思考。 近日,数美科技联合AMD举办的AIGC沙龙活动,邀请了 经纬创投投资董事王冰醒、启元世界战略总监王思捷、AM

    2024年02月09日
    浏览(52)
  • ChatGPT在物流与运输行业的智能场景:智能调度和自动驾驶的前瞻应用

      第一章:引言 随着人工智能技术的飞速发展,物流与运输行业正迎来一场革命。传统的调度和运输模式已经无法满足快速增长的物流需求和客户期望。在这一领域,ChatGPT作为一种先进的自然语言处理模型,具有巨大的潜力。本文将探讨ChatGPT在物流与运输行业中智能调度和

    2024年02月10日
    浏览(42)
  • 阿里云机器学习PAI全新推出特征平台 (Feature Store),助力AI建模场景特征数据高效利用

    推荐算法与系统在全球范围内已得到广泛应用,为用户提供了更个性化和智能化的产品推荐体验。在推荐系统领域,AI建模中特征数据的复用、一致性等问题严重影响了建模效率。 阿里云机器学习平台 PAI 推出特征平台(PAI-FeatureStore) 。在所有需要特征的AI建模场景,用户可

    2024年02月11日
    浏览(50)
  • 生成式 AI 已掀起浪潮,行业发展会怎么样?

    大家可以看看一些研究报告。 本报告总结成关键的6个部分: 1. 引言 :介绍生成式AI应用的概念和重要性,以及本文的主要内容和目的。 2. 生成式AI应用的基础知识 :包括什么是生成式AI、其与自然语言处理(NLP)之间的关系、数据隐私保护等方面的内容。 3. ChatGPT :介绍了

    2024年02月21日
    浏览(49)
  • 数商云DMS渠道商城系统全渠道营销场景应用举例,赋能日化行业增强渠道掌控力

    日化产业是我国改革开放后发展最快、最早对外放开的行业之一,近年来,随着互联网电商、新零售等销售模式的兴起,拉开了全渠道营销时代的序幕,给日化行业市场带来了巨大的变化,也给更多新老品牌带来了更广阔的渠道渗透机会。 同时,受疫情影响,日化行业传统线

    2024年02月02日
    浏览(61)
  • DreamTalk:单张图像即可生成逼真人物说话头像动画,助力AI数字人落地

    “ DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models ” DreamTalk是一个基于扩散的音频驱动的富有表现力的说话头生成框架,可以生成不同说话风格的高质量的说话头视频。DreamTalk对各种输入表现出强大的性能,包括歌曲、多语言语音、噪声音频和域外肖像。

    2024年04月15日
    浏览(47)
  • 免费IP类api接口:含ip查询、ip应用场景查询、ip代理识别、IP行业查询...

    免费IP类api接口:含ip查询、ip应用场景查询、ip代理识别… IP归属地-IPv6区县级:根据IP地址(IPv6版本)查询归属地信息,包含国家、省、市、区县和运营商等信息。 IP归属地-IPv6城市级:根据IP地址(IPv6版本)查询归属地信息,支持到中国大陆地区(不含港澳台地区)城市级

    2024年02月09日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包