阿里最新EMO:只需要提供一张照片和一段音频,即可生成会说话唱歌的AI视频

这篇具有很好参考价值的文章主要介绍了阿里最新EMO:只需要提供一张照片和一段音频,即可生成会说话唱歌的AI视频。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

只要一张照片加上音频,就能让你说话唱歌,阿里做到了。

最近,阿里新上线了一款AI图片-音频-视频模型技术EMO,用户只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的AI视频。以及实现无缝对接的动态小视频,最长时间可达1分30秒左右。

阿里研究团队表示,EMO可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频,同时,其可以根据输入视频的长度生成任意持续时间的视频。

你可以想象一下,用蒙娜丽莎的画像就可以生成唱歌的视频,或者说用一张高启强的肖像就可以让强哥变身刑法教授在线授课。还可以让坤坤变成真正的rapper!值得一提的是,生成的视频中人物表情非常到位,口型、语速也都能完全匹配。

阿里emo网址,AIGC,深度学习,论文阅读,音视频,人工智能,计算机视觉,AGI

阿里EMO:输入图片和音频就可生成视频,强哥也能上刑法课了!

论文解读

阿里emo网址,AIGC,深度学习,论文阅读,音视频,人工智能,计算机视觉,AGI

github链接:https://github.com/HumanAIGC/EMO

论文链接:https://github.com/HumanAIGC/EMO

摘要

阿里emo网址,AIGC,深度学习,论文阅读,音视频,人工智能,计算机视觉,AGI

        我们提出了EMO,一个富有表现力的音频驱动的人像视频生成框架。输入单个参考图像和语音音频,例如说话和唱歌,我们的方法可以生成具有丰富面部表情和各种头部姿势的语音化身视频,同时我们可以根据输入视频的长度生成任意时长的视频。

方法

阿里emo网址,AIGC,深度学习,论文阅读,音视频,人工智能,计算机视觉,AGI

提出的方法概述:框架主要由两个阶段构成。在初始阶段,称为帧编码,使用ReferenceNet从参考图像和运动帧中提取特征。随后,在扩散处理阶段,预训练的音频编码器处理音频嵌入。人脸区域掩模与多帧噪声相结合,控制人脸图像的生成。其次是利用骨干网来简化去噪操作。在骨干网中,采用了两种形式的注意机制:参考注意和声音注意。这些机制对于保留角色的身份和调节角色的动作是必不可少的。另外,利用时间模块来控制时间维度,调整运动速度。

        感谢你看到这里,也欢迎点击关注下方公众号,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~文章来源地址https://www.toymoban.com/news/detail-840616.html

到了这里,关于阿里最新EMO:只需要提供一张照片和一段音频,即可生成会说话唱歌的AI视频的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Finalshell连Linux服务器一直需要密码,常用方法都试过了还是不行,最后发现是IP地址错了,要用阿里云提供的IP地址

    阿里云买的轻量应用服务器,初次用finalshell连,试过了 1.修改sshd_config文件 2.修改root密码 3创建新用户 都没有成功,最后发现原来是一个IP地址有问题,不是用ifconfig获得的地址,而是在 轻量应用服务器-远程连接 中就告诉了SSH客户端软件要连的IP地址,用这个地址就可以了

    2024年02月14日
    浏览(45)
  • 通过一张照片来定位拍摄地点和网站的域名 LA CTF 2023

    这次打ctf遇到了一个比较经典的osint类题目,在这里分享一下如何做此类题目 题目链接: 题目简介: 你能猜出这个猫天堂的名字吗?答案是此位置的网站域。例如,如果答案是 ucla,则flag将是lactf{ucla.edu} 下载图片,打开可以看到一群猫猫 照片里的这个人看起来是白种人,猜

    2023年04月13日
    浏览(27)
  • VS2019编译器修改背景壁纸(写代码背景不再单薄,试试换一张清晰的美女照片)

    第一步:打开vs2019编译器,在上方菜单栏找到【扩展】-【管理扩展】-【联机】,在右方搜索栏搜索“claudiaIDE”,找到ClaudiaIDE 2019,点击下载 第二步:下载完成后,关闭所有的VS文件,关闭VS后回到桌面,发现有一个“VSIX Installer”的弹窗,选择“Modify”进行安装,等到修改完

    2023年04月21日
    浏览(59)
  • 手机照片怎么压缩到200k?思路提供

    现在的手机相机已经越来越先进,照出来的照片也越来越清晰,但是这也带来了一个问题,那就是照片占用的存储空间会越来越大。有时候我们需要将照片分享给朋友或上传到社交媒体上,这时候需要将照片压缩,以减小文件大小。下面是一些简单的方法。   1. 使用手机自带

    2024年02月12日
    浏览(48)
  • 苹果手机照片怎么转换成jpg格式?思路提供

    苹果手机的照片默认保存为HEIC格式,这种格式可以让你的照片在占用更少的存储空间的情况下保持高质量。但是,如果你想与其他人分享你的照片,你可能需要将它们转换为JPG格式。以下是将苹果手机照片转换为JPG格式的步骤: 首先,打开“设置”应用程序并找到“相机”

    2024年02月11日
    浏览(49)
  • Android framework定制1-->用户无操作一段时间,自动播放客户提供的视频,用户操作后退出播放

    在PowerManagerService.java中监听用户操作,10秒无操作则打开预置的apk播放视频,直接上代码: apk autoplayvideo 的关键代码: AndroidManifest.xml: activity_main.xml:   如果此文章解答了您的相关疑惑,节约了您的宝贵时间,可以Shang小编鸡腿哟!  

    2024年02月02日
    浏览(39)
  • 分析Flink,源和算子并行度不一致时,运行一段时间后,看似不再继续消费的问题,提供解决思路。

    之前有分析过一次类似问题,最终结论是在keyby之后,其中有一个key数量特别庞大,导致对应的subtask压力过大,进而使得整个job不再继续运作。在这个问题解决之后,后续又再次出现了积压的情况,针对这个问题进行排查分析。 通过以下这张图,可以看到当前它是没有数据积

    2024年02月12日
    浏览(42)
  • 阿里云oss对象存储上传照片并返回照片路径

    安装javaJDk 依赖 jdk1.8(只用一个依赖即可) 使用的是Java 9及以上的版本,则需要添加jaxb相关依赖。 程序:

    2024年02月13日
    浏览(37)
  • java 阿里云上传照片

    获取对象 代码配置类 yml配置 注意这些参数都是事先配置好的(也就是注册阿里云购买过的获取的参数) 代码controller层 代码service层

    2024年02月07日
    浏览(23)
  • Stable Diffusion InstantID 炸裂!只需要一张图就可以换脸 | 详细教程

    最近AI换脸又火起来了, 小红书 InstantX 团队发布了一款最新的换脸技术 InstantID 和之前的主流的训练 lora 换脸不同,InstantID 只需要上传一张图就可以实现换脸以及姿势替换! InstantID 主要分为了三部分 ID Embedding:通过预训练的面部识别模型,将语义人脸特征提取为 Face Embed

    2024年02月20日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包