AtomoVideo：阿里推出高保真图像到视频生成开源模型，具有更好的运动强度和一致性-Toy模板网

这篇具有很好参考价值的文章主要介绍了AtomoVideo：阿里推出高保真图像到视频生成开源模型，具有更好的运动强度和一致性。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

AtomoVideo是一种新型的高保真图像到视频(I2V)生成框架，可以从输入图像生成高保真视频，实现比现有工作更好的运动强度和一致性，并且兼容各种个性化的T2I模型，无需特定调整。

atomovideo,AIGC,深度学习,论文阅读,计算机视觉,人工智能,AIGC,视频生成

论文阅读

atomovideo,AIGC,深度学习,论文阅读,计算机视觉,人工智能,AIGC,视频生成

高保真图像到视频生成

摘要

近年来，基于先进的文本到图像生成技术，视频生成取得了长足的发展。在这项工作中，我们提出了一个用于图像到视频生成的高保真框架，名为AtomoVideo。基于多粒度图像注入，实现了生成的视频对给定图像的高保真度。此外，由于高质量的数据集和训练策略，我们实现了更大的运动强度，同时保持了优越的时间一致性和稳定性。我们的架构可以灵活地扩展到视频帧预测任务，通过迭代生成实现长序列预测。此外，由于适配器训练的设计，我们的方法可以很好地与现有的个性化模型和可控模块相结合。通过定量和定性评价，AtomoVideo与常用方法相比取得了更好的效果。

方法

atomovideo,AIGC,深度学习,论文阅读,计算机视觉,人工智能,AIGC,视频生成

图像到视频方法的框架：我们使用预训练好的T2I模型，在每个空间卷积和注意层之后新增1D时间卷积和时间注意模块，固定T2I模型参数，只训练新增的时间层。同时，为了注入图像信息，我们将输入通道修改为9通道，增加图像条件隐码和二值掩码。由于输入的拼接图像信息仅由VAE编码，因此它代表低级信息，这有助于增强视频相对于给定图像的保真度。同时，我们还以交叉注意的形式注入高级图像语义，以实现更多的语义图像可控性。