AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频

这篇具有很好参考价值的文章主要介绍了AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

学习前言

在过年期间,OpenAI放出了SORA文生视频的预览效果,一瞬间各大媒体争相报道,又引爆了一次科技圈,可惜的是,SORA依然没选择开源。

在这个契机下,本来我也对文生视频的工作非常感兴趣,所以也研究了一些与SORA相关的技术,虽然我们没有像OpenAI那么大的算力,但做一些基础研究还是足够的。

最近我参与了一个EasyAnimate的项目,可以根据文本生成视频,并且借鉴了Animatediff的IDEA,将MotionModule网格化后引入到DIT中,借助DIT的强大生成能力,生成视频效果也还不错,并且由于基于一个可插入结构,EasyAnimate有良好的拓展性,近期也开源了出来。
AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate

源码下载地址

https://github.com/aigc-apps/EasyAnimate

感谢大家的关注。

技术原理储备(DIT/Lora/Motion Module)

什么是Diffusion Transformer (DiT)

DiT基于扩散模型,所以不免包含不断去噪的过程,如果是图生图的话,还有不断加噪的过程,此时离不开DDPM那张老图,如下:
AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate
DiT相比于DDPM,使用了更快的采样器,也使用了更大的分辨率,与Stable Diffusion一样使用了隐空间的扩散,但可能更偏研究性质一些,没有使用非常大的数据集进行预训练,只使用了imagenet进行预训练。

与Stable Diffusion不同的是,DiT的网络结构完全由Transformer组成,没有Unet中大量的上下采样,结构更为简单清晰。

在EasyAnimate中,我们将Motion Module网格化后引入到DIT中,借助DIT的强大生成能力,生成视频效果也还不错。

Lora

由《LoRA: Low-Rank Adaptation of Large Language Models》 提出的一种基于低秩矩阵的对大参数模型进行少量参数微调训练的方法,广泛引用在各种大模型的下游使用中。

由于我们是基于一个可插入的结构设计了EasyAnimate,所以EasyAnimate有良好的拓展性,我们可以对文生图模型训练Lora后应用到文生视频模型中。

Motion Module

AnimateDiff是一个可以对文生图模型进行动画处理的实用框架,其内部设计的Motion Module无需进行特定模型调整,即可一次性为大多数现有的个性化文本转图像模型提供动画化能力。

EasyAnimate参考AnimateDiff使用Motion Module保证动画的连续性,同时作为一个可插入的结构,Motion Module有良好的拓展性

EasyAnimate简介

EasyAnimate是一个基于transformer结构的pipeline,可用于生成AI动画、训练Diffusion Transformer的基线模型与Lora模型,我们支持从已经训练好的EasyAnimate模型直接进行预测,生成不同分辨率,6秒左右、fps12的视频(40 ~ 80帧, 未来会支持更长的视频),也支持用户训练自己的基线模型与Lora模型,进行一定的风格变换。

这些是pipeline的生成结果,从生成结果来看,它的生成效果还是非常不错的,Resolution 的顺序是width、height、frames:

首先是使用原始的pixart checkpoint进行预测。

Base Models Sampler Seed Resolution (h x w x f) Prompt GenerationResult Download
PixArt DPM++ 43 512x512x80 A soaring drone footage captures the majestic beauty of a coastal cliff, its red and yellow stratified rock faces rich in color and against the vibrant turquoise of the sea. Seabirds can be seen taking flight around the cliff’s precipices. AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate Download GIF
PixArt DPM++ 43 448x640x80 The video captures the majestic beauty of a waterfall cascading down a cliff into a serene lake. The waterfall, with its powerful flow, is the central focus of the video. The surrounding landscape is lush and green, with trees and foliage adding to the natural beauty of the scene. AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate Download GIF
PixArt DPM++ 43 704x384x80 A vibrant scene of a snowy mountain landscape. The sky is filled with a multitude of colorful hot air balloons, each floating at different heights, creating a dynamic and lively atmosphere. The balloons are scattered across the sky, some closer to the viewer, others further away, adding depth to the scene. AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate Download GIF
PixArt DPM++ 43 448x640x64 The vibrant beauty of a sunflower field. The sunflowers, with their bright yellow petals and dark brown centers, are in full bloom, creating a stunning contrast against the green leaves and stems. The sunflowers are arranged in neat rows, creating a sense of order and symmetry. AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate Download GIF
PixArt DPM++ 43 384x704x48 A tranquil Vermont autumn, with leaves in vibrant colors of orange and red fluttering down a mountain stream. AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate Download GIF
PixArt DPM++ 43 704x384x48 A vibrant underwater scene. A group of blue fish, with yellow fins, are swimming around a coral reef. The coral reef is a mix of brown and green, providing a natural habitat for the fish. The water is a deep blue, indicating a depth of around 30 feet. The fish are swimming in a circular pattern around the coral reef, indicating a sense of motion and activity. The overall scene is a beautiful representation of marine life. AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate Download GIF
PixArt DPM++ 43 576x448x48 Pacific coast, carmel by the blue sea ocean and peaceful waves AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate Download GIF
PixArt DPM++ 43 576x448x80 A snowy forest landscape with a dirt road running through it. The road is flanked by trees covered in snow, and the ground is also covered in snow. The sun is shining, creating a bright and serene atmosphere. The road appears to be empty, and there are no people or animals visible in the video. The style of the video is a natural landscape shot, with a focus on the beauty of the snowy forest and the peacefulness of the road. AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate Download GIF
PixArt DPM++ 43 640x448x64 The dynamic movement of tall, wispy grasses swaying in the wind. The sky above is filled with clouds, creating a dramatic backdrop. The sunlight pierces through the clouds, casting a warm glow on the scene. The grasses are a mix of green and brown, indicating a change in seasons. The overall style of the video is naturalistic, capturing the beauty of the landscape in a realistic manner. The focus is on the grasses and their movement, with the sky serving as a secondary element. The video does not contain any human or animal elements. AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate Download GIF
PixArt DPM++ 43 704x384x80 A serene night scene in a forested area. The first frame shows a tranquil lake reflecting the star-filled sky above. The second frame reveals a beautiful sunset, casting a warm glow over the landscape. The third frame showcases the night sky, filled with stars and a vibrant Milky Way galaxy. The video is a time-lapse, capturing the transition from day to night, with the lake and forest serving as a constant backdrop. The style of the video is naturalistic, emphasizing the beauty of the night sky and the peacefulness of the forest. AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate Download GIF
PixArt DPM++ 43 640x448x80 Sunset over the sea. AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate Download GIF

使用人像checkpoint进行预测。

Base Models Sampler Seed Resolution (h x w x f) Prompt GenerationResult Download
Portrait Euler A 43 448x576x80 1girl, 3d, black hair, brown eyes, earrings, grey background, jewelry, lips, long hair, looking at viewer, photo \(medium\), realistic, red lips, solo AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate Download GIF
Portrait Euler A 43 448x576x80 1girl, bare shoulders, blurry, brown eyes, dirty, dirty face, freckles, lips, long hair, looking at viewer, realistic, sleeveless, solo, upper body AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate Download GIF
Portrait Euler A 43 512x512x64 1girl, black hair, brown eyes, earrings, grey background, jewelry, lips, looking at viewer, mole, mole under eye, neck tattoo, nose, ponytail, realistic, shirt, simple background, solo, tattoo AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate Download GIF
Portrait Euler A 43 576x448x64 1girl, black hair, lips, looking at viewer, mole, mole under eye, mole under mouth, realistic, solo AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate Download GIF

使用人像Lora进行预测。

Base Models Sampler Seed Resolution (h x w x f) Prompt GenerationResult Download
Pixart + Lora Euler A 43 512x512x64 1girl, 3d, black hair, brown eyes, earrings, grey background, jewelry, lips, long hair, looking at viewer, photo \(medium\), realistic, red lips, solo AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate Download GIF
Pixart + Lora Euler A 43 512x512x64 1girl, bare shoulders, blurry, brown eyes, dirty, dirty face, freckles, lips, long hair, looking at viewer, mole, mole on breast, mole on neck, mole under eye, mole under mouth, realistic, sleeveless, solo, upper body AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate Download GIF
Pixart + Lora Euler A 43 512x512x64 1girl, black hair, lips, looking at viewer, mole, mole under eye, mole under mouth, realistic, solo AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate Download GIF
Pixart + Lora Euler A 43 512x512x80 1girl, bare shoulders, blurry, blurry background, blurry foreground, bokeh, brown eyes, christmas tree, closed mouth, collarbone, depth of field, earrings, jewelry, lips, long hair, looking at viewer, photo \(medium\), realistic, smile, solo AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate Download GIF

可以看出,EasyAnimate具有良好的可拓展性,无论是训练Checkpoint还是Lora都可以应用到模型当中,另外,我们设计了分桶策略与自适应视频裁剪,模型既可以预测512x512的视频,也可以预测如384x768的视频。

EasyAnimate原理界面展示

参考Animatediff,我们为EasyAnimate也提供了对应的界面,在界面上,我们可以选择基础模型、motion module版本、基础checkpoint和lora模型。

在填入prompt和neg prompt后,就可以在下面点击generate进行生成了。
AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate

快速启动

云使用: AliyunDSW/Docker

a. 通过阿里云 DSW
我们暂时还没有快速启动资源,等配置完成后再做更新。

b. 通过docker
使用docker的情况下,请保证机器中已经正确安装显卡驱动与CUDA环境,然后以此执行以下命令:

# 拉取镜像
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate

# 进入镜像
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:easyanimate

# clone 代码
git clone https://github.com/aigc-apps/EasyAnimate.git

# 进入EasyAnimate文件夹
cd EasyAnimate

# 下载权重
mkdir models/Diffusion_Transformer
mkdir models/Motion_Module
mkdir models/Personalized_Model

wget https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/Motion_Module/easyanimate_v1_mm.safetensors -O models/Motion_Module/easyanimate_v1_mm.safetensors
wget https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/Personalized_Model/easyanimate_portrait.safetensors -O models/Personalized_Model/easyanimate_portrait.safetensors
wget https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/Personalized_Model/easyanimate_portrait_lora.safetensors -O models/Personalized_Model/easyanimate_portrait_lora.safetensors
wget https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/easyanimate/Diffusion_Transformer/PixArt-XL-2-512x512.tar -O models/Diffusion_Transformer/PixArt-XL-2-512x512.tar

cd models/Diffusion_Transformer/
tar -xvf PixArt-XL-2-512x512.tar
cd ../../

本地安装: 环境检查/下载/安装

我们已验证EasyAnimate可在以下环境中执行:

Linux 的详细信息:

操作系统 Ubuntu 20.04, CentOS
python: python3.10 & python3.11
pytorch: torch2.2.0
CUDA: 11.8
CUDNN: 8+
GPU: Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G

我们需要大约 60GB 的可用磁盘空间,请检查!

b. 权重放置
我们最好将权重按照指定路径进行放置:

📦 models/
├── 📂 Diffusion_Transformer/
│   └── 📂 PixArt-XL-2-512x512/
├── 📂 Motion_Module/
│   └── 📄 easyanimate_v1_mm.safetensors
├── 📂 Motion_Module/
│   ├── 📄 easyanimate_portrait.safetensors
│   └── 📄 easyanimate_portrait_lora.safetensors

如何使用

生成

运行python文件

  • 步骤1:下载对应权重放入models文件夹。
  • 步骤2:在predict_t2v.py文件中修改prompt、neg_prompt、guidance_scale和seed。
  • 步骤3:运行predict_t2v.py文件,等待生成结果,结果保存在samples/easyanimate-videos文件夹中。
  • 步骤4:如果想结合自己训练的其他backbone与Lora,则看情况修改predict_t2v.py中的predict_t2v.py和lora_path。

通过ui界面

  • 步骤1:下载对应权重放入models文件夹。
  • 步骤2:运行app.py文件,进入gradio页面。
  • 步骤3:根据页面选择生成模型,填入prompt、neg_prompt、guidance_scale和seed等,点击生成,等待生成结果,结果保存在sample文件夹中。

模型训练

训练视频生成模型

i、基于webvid数据集

如果使用webvid数据集进行训练,则需要首先下载webvid的数据集。

您需要以这种格式排列webvid数据集。

📦 project/
├── 📂 datasets/
│   ├── 📂 webvid/
│       ├── 📂 videos/
│       │   ├── 📄 00000001.mp4
│       │   ├── 📄 00000002.mp4
│       │   └── 📄 .....
│       └── 📄 csv_of_webvid.csv

然后,进入scripts/train_t2v.sh进行设置。

export DATASET_NAME="datasets/webvid/videos/"
export DATASET_META_NAME="datasets/webvid/csv_of_webvid.csv"

...

train_data_format="webvid"

最后运行scripts/train_t2v.sh。

sh scripts/train_t2v.sh
ii、基于自建数据集

如果使用内部数据集进行训练,则需要首先格式化数据集。

您需要以这种格式排列数据集。

📦 project/
├── 📂 datasets/
│   ├── 📂 internal_datasets/
│       ├── 📂 videos/
│       │   ├── 📄 00000001.mp4
│       │   ├── 📄 00000002.mp4
│       │   └── 📄 .....
│       └── 📄 json_of_internal_datasets.json

json_of_internal_datasets.json是一个标准的json文件,如下所示:

[
    {
      "file_path": "videos/00000001.mp4",
      "text": "A group of young men in suits and sunglasses are walking down a city street.",
      "type": "video"
    },
    {
      "file_path": "videos/00000002.mp4",
      "text": "A notepad with a drawing of a woman on it.",
      "type": "video"
    }
    .....
]

json中的file_path需要设置为相对路径。

然后,进入scripts/train_t2v.sh进行设置。

export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/json_of_internal_datasets.json"

...

train_data_format="normal"

最后运行scripts/train_t2v.sh。

sh scripts/train_t2v.sh

训练基础文生图模型

i、基于diffusers格式

数据集的格式可以设置为diffusers格式。

📦 project/
├── 📂 datasets/
│   ├── 📂 diffusers_datasets/
│       ├── 📂 train/
│       │   ├── 📄 00000001.jpg
│       │   ├── 📄 00000002.jpg
│       │   └── 📄 .....
│       └── 📄 metadata.jsonl

然后,进入scripts/train_t2i.sh进行设置。

export DATASET_NAME="datasets/diffusers_datasets/"

...

train_data_format="diffusers"

最后运行scripts/train_t2i.sh。

sh scripts/train_t2i.sh
ii、基于自建数据集

如果使用自建数据集进行训练,则需要首先格式化数据集。

您需要以这种格式排列数据集。

📦 project/
├── 📂 datasets/
│   ├── 📂 internal_datasets/
│       ├── 📂 train/
│       │   ├── 📄 00000001.jpg
│       │   ├── 📄 00000002.jpg
│       │   └── 📄 .....
│       └── 📄 json_of_internal_datasets.json

json_of_internal_datasets.json是一个标准的json文件,如下所示:

[
    {
      "file_path": "train/00000001.jpg",
      "text": "A group of young men in suits and sunglasses are walking down a city street.",
      "type": "image"
    },
    {
      "file_path": "train/00000002.jpg",
      "text": "A notepad with a drawing of a woman on it.",
      "type": "image"
    }
    .....
]

json中的file_path需要设置为相对路径。

然后,进入scripts/train_t2i.sh进行设置。

export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/json_of_internal_datasets.json"

...

train_data_format="normal"

最后运行scripts/train_t2i.sh。

sh scripts/train_t2i.sh

训练Lora模型

i、基于diffusers格式

数据集的格式可以设置为diffusers格式。

📦 project/
├── 📂 datasets/
│   ├── 📂 diffusers_datasets/
│       ├── 📂 train/
│       │   ├── 📄 00000001.jpg
│       │   ├── 📄 00000002.jpg
│       │   └── 📄 .....
│       └── 📄 metadata.jsonl

然后,进入scripts/train_lora.sh进行设置。

export DATASET_NAME="datasets/diffusers_datasets/"

...

train_data_format="diffusers"

最后运行scripts/train_lora.sh。

sh scripts/train_lora.sh
ii、基于自建数据集

如果使用自建数据集进行训练,则需要首先格式化数据集。

您需要以这种格式排列数据集。

📦 project/
├── 📂 datasets/
│   ├── 📂 internal_datasets/
│       ├── 📂 train/
│       │   ├── 📄 00000001.jpg
│       │   ├── 📄 00000002.jpg
│       │   └── 📄 .....
│       └── 📄 json_of_internal_datasets.json

json_of_internal_datasets.json是一个标准的json文件,如下所示:

[
    {
      "file_path": "train/00000001.jpg",
      "text": "A group of young men in suits and sunglasses are walking down a city street.",
      "type": "image"
    },
    {
      "file_path": "train/00000002.jpg",
      "text": "A notepad with a drawing of a woman on it.",
      "type": "image"
    }
    .....
]

json中的file_path需要设置为相对路径。

然后,进入scripts/train_lora.sh进行设置。

export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/json_of_internal_datasets.json"

...

train_data_format="normal"

最后运行scripts/train_lora.sh。

sh scripts/train_lora.sh

算法细节

我们使用了PixArt-alpha作为基础模型,并在此基础上引入额外的运动模块(motion module)来将DiT模型从2D图像生成扩展到3D视频生成上来。其框架图如下:
AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate
其中,Motion Module 用于捕捉时序维度的帧间关系,其结构如下:
AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频,AIGC专栏,AIGC,SORA,视频生成,文生视频,EasyAnimate
我们在时序维度上引入注意力机制来让模型学习时序信息,以进行连续视频帧的生成。同时,我们利用额外的网格计算(Grid Reshape),来扩大注意力机制的input token数目,从而更多地利用图像的空间信息以达到更好的生成效果。Motion Module 作为一个单独的模块,在推理时可以用在不同的DiT基线模型上。此外,EasyAnimate不仅支持了motion-module模块的训练,也支持了DiT基模型/LoRA模型的训练,以方便用户根据自身需要来完成自定义风格的模型训练,进而生成任意风格的视频。文章来源地址https://www.toymoban.com/news/detail-854339.html

到了这里,关于AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 文生视频大模型Sora的复现经验

      大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的

    2024年04月22日
    浏览(42)
  • OpenAI全新发布文生视频模型:Sora!

    OpenAI官网原文链接:https://openai.com/research/video-generation-models-as-world-simulators#fn-20      我们探索视频数据生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空Patche

    2024年02月19日
    浏览(46)
  • 51-28 Sora 文生视频背后的核心技术

    2024年2月16日,OpenAI发布Sora文生视频模型,一石激起千层浪,迅速刷屏爆火于整个AI圈。一方面,Sora从文本、图像迈向视频大模型,这可以说是通向通用人工智能的里程碑事件;另一方面,训练和推理需求从文本、图像又增加一个视频维度,将拉动AI芯片、AI应用雨后春笋般的

    2024年03月19日
    浏览(42)
  • [ai笔记8] 聊聊openAI最新文生视频产品-Sora

    欢迎来到文思源想的ai空间,这是技术老兵重学ai以及成长思考的第8篇分享! 近期sora在科技届引发不小的轰动,虽然这是openai并未对外发布的相关产品,目前如同小米汽车的技术发布会,但是确实引发了不小的震撼,因此特地到官方网站阅读了它的所有介绍,包括技术资料,

    2024年02月20日
    浏览(42)
  • 深入浅出熟悉OpenAI最新大作Sora文生视频大模型

    蠢蠢欲动,惴惴不安,朋友们我又来了,这个春节真的过的是像过山车,Gemini1.5 PRO还没过劲,OpenAI又放大招,人类真的要认输了吗,让我忍不住想要再探究竟,到底是什么让文生视频发生了质的跃迁,再次不仅止不住唏嘘,那些老板们辛辛苦苦创起来的业,恐怕又被降维打击

    2024年02月21日
    浏览(50)
  • 重磅!OpenAI发布文生视频模型Sora——视频模型的奇点或许来临!!

    OpenAI发布文生视频模型Sora——视频模型的奇点或许来临!! 初七啦,得开始工作了,没想到第一天就这么劲爆! 今天OpenAI迎来重大更新——发布视频模型Sora!! 官网Sora (openai.com) 说实话有点惊艳,在AI圈子里好多头部内容创作者看到都禁不住国粹了! 除了能够仅根据文本

    2024年02月20日
    浏览(46)
  • OpenAI-Sora:60s超长长度、超强语义理解、世界模型。浅析文生视频模型Sora以及技术原理简介

    Sora官方链接:https://openai.com/sora   视频模型领头羊Runway Gen 2、Pika等AI视频工具,都还在突破几秒内的连贯性,而OpenAI,已经达到了史诗级的纪录。 OpenAI,永远快别人一步!!!! 像ChatGPT成功抢了Claude的头条一样,这一次,谷歌核弹级大杀器Gemini 1.5才推出没几个小时,全世

    2024年03月15日
    浏览(59)
  • 来自OpenAI的降维打击! OpenAI发布文生视频模型Sora——视频模型的奇点或许来临!!

    手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) 文章目录 1 卓越能力 1.1 60s超长时间 高度详细复杂的场景 1.2 复杂的相机运动 1.3 同一场景多个镜头 2 技术原理 3 不足 4 安全

    2024年02月21日
    浏览(51)
  • OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?

    OpenAI 的官方解释了在视频数据基础上进行大规模训练生成模型的方法。 我们下面会摘取其中的关键部分罗列让大家快速get重点。 喜欢钻研的伙伴可以到官网查看技术报告: https://openai.com/research/video-generation-models-as-world-simulators 技术特点 三维空间的连贯性:Sora可以生成带有

    2024年02月20日
    浏览(72)
  • 【C++11】移动赋值 | 新的类功能 | 可变参数模板

    C++11中,string中的operator= 包含 参数为右值的版本 C++98中 没有移动赋值和移动构造 , 只有参数为左值 的赋值重载(operator=)和拷贝构造 本来只有两次深拷贝,但是由于调用拷贝赋值时,内部又进行一次拷贝构造,所以导致最终进行三次深拷贝 这里编译器是不能优化的, 因为优

    2024年02月08日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包