使用TimeSformer预训练模型提取视频特征

这篇具有很好参考价值的文章主要介绍了使用TimeSformer预训练模型提取视频特征。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、安装TimeSformer

github:GitHub - facebookresearch/TimeSformer: The official pytorch implementation of our paper "Is Space-Time Attention All You Need for Video Understanding?"

使用TimeSformer预训练模型提取视频特征

 直接按照官方步骤安装即可,torchvision在安装pytorch时就一起安装好了,我这里选择安装1.8版本的pytorch,可以根据自己的cuda版本自行选择

pytorch安装:Previous PyTorch Versions | PyTorch

conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cudatoolkit=10.2 -c pytorch

其它的按照官方步骤即可

二、处理视频,根据需要更改dataloader

1、视频提帧

输入模型的是图片,所以需要先对视频提帧并保存(最后输入模型的根据模型具体参数,分别是8,16,32张图片,原始策略是均匀分段选择图片,可以自己更改)

首先需要准备一个存放视频目录的文件,方便进行批量处理,我这里选择生成格式为  视频名+'\t'+视频路径 的txt文件,生成代码如下:

import os

path = '/home/videos'  # 要遍历的目录
txt_path = '/home/video.txt'
with open(txt_path, 'w') as f:
  for root, dirs, names in os.walk(path):
    for name in names:
        ext = os.path.splitext(name)[1]  # 获取后缀名
        if ext == '.mp4':
            video_path = os.path.join(root, name)  # mp4文件原始地址
            video_name = name.split('.')[0]
            f.write(video_name+'\t'+video_path+'\n')

得到的txt文件类似如下所示:

vi1231926809    /home/video/vi1231926809.mp4
vi3522215705    home/video/vi3522215705.mp4
vi3172646169    home/video/vi3172646169.mp4

然后用ffmpeg进行视频提帧:

import os
import sys
import subprocess


OUT_DATA_DIR="/home/video_pics"
txt_path = "/home/video.txt"


filelist = []
i = 1
with open(txt_path, 'r', encoding='utf-8') as f:
  for line in f:
    line = line.rstrip('\n')
    video_name = line.split('\t')[0].split('.')[0]
    dst_path = os.path.join(OUT_DATA_DIR, video_name)
    video_path = line.split('\t')[1]
    if not os.path.exists(dst_path):
      os.makedirs(dst_path)
    print(i)
    i += 1
    cmd = 'ffmpeg -i \"{}\" -r 1 -q:v 2 -f image2 \"{}/%05d.jpg\"'.format(video_path, dst_path)
    subprocess.call(cmd, shell=True,stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)

2、修改dataloader

import json
import torchvision
import random
import os
import numpy as np
import torch
import torch.nn.functional as F
import cv2
from torch.utils.data import Dataset
from torch.autograd import Variable

from models.transforms import *


class VideoClassificationDataset(Dataset):
    def __init__(self, opt, mode):
        # python 3
        # super().__init__()
        super(VideoClassificationDataset, self).__init__()
        self.mode = mode  # to load train/val/test data
        self.feats_dir = opt['feats_dir']
        if self.mode == 'val':
            self.n = 5000           #提取的视频数量
        if self.mode != 'inference':
            print(f'load feats from {self.feats_dir}')

            with open(self.feats_dir) as f:
                feat_class_list = f.readlines()
            self.feat_class_list = feat_class_list
    
            mean =[0.485, 0.456, 0.406]
            std = [0.229, 0.224, 0.225]
   
            model_transform_params  = {
                "side_size": 256,
                "crop_size": 224,
                "num_segments": 8,
                "sampling_rate": 5
            }

            # Get transform parameters based on model
            transform_params = model_transform_params
            
            transform_train = torchvision.transforms.Compose([
                       GroupMultiScaleCrop(transform_params["crop_size"], [1, .875, .75, .66]),
                       GroupRandomHorizontalFlip(is_flow=False),
                       Stack(roll=False),
                       ToTorchFormatTensor(div=True),
                       GroupNormalize(mean, std),
                   ])
            
            transform_val = torchvision.transforms.Compose([
                       GroupScale(int(transform_params["side_size"])),
                       GroupCenterCrop(transform_params["crop_size"]),
                       Stack(roll=False),
                       ToTorchFormatTensor(div=True),
                       GroupNormalize(mean, std),
                   ])
        
            self.transform_params = transform_params
            self.transform_train = transform_train
            self.transform_val = transform_val

        print("Finished initializing dataloader.")

    def __getitem__(self, ix):
        """This function returns a tuple that is further passed to collate_fn
        """
        ix = ix % self.n
        fc_feat = self._load_video(ix)

        data = {
            'fc_feats': Variable(fc_feat),
            'video_id': ix,
        }

        return data

    def __len__(self):
        return self.n

    def _load_video(self, idx):
        prefix = '{:05d}.jpg'
        feat_path_list = []
        for i in range(len(self.feat_class_list)):
            video_name = self.feat_class_list[i].rstrip('\n').split('\t')[0]+'-'
            feat_path = self.feat_class_list[i].rstrip('\n').split('\t')[1]
            feat_path_list.append(feat_path)

        video_data = {}
        if self.mode == 'val':
            images = []
            frame_list =os.listdir(feat_path_list[idx])
            average_duration = len(frame_list) // self.transform_params["num_segments"]
            # offests为采样坐标
            offsets = np.array([int(average_duration / 2.0 + average_duration * x) for x in range(self.transform_params["num_segments"])])
            offsets = offsets + 1
            for seg_ind in offsets:
                p = int(seg_ind)
                seg_imgs = Image.open(os.path.join(feat_path_list[idx], prefix.format(p))).convert('RGB')
                images.append(seg_imgs)
            video_data = self.transform_val(images)
            video_data = video_data.view((-1, self.transform_params["num_segments"]) + video_data.size()[1:])

        return video_data

三、视频特征提取并存为npy文件

###更正:提取特征时为了保持一致性,加载模型应该用eval()模式,这样同一个视频每次提取的特征是固定不变的。

import argparse
import os
import torch
import numpy as np
from torch.utils.data import DataLoader
import random
from dataloader import VideoClassificationDataset
from timesformer.models.vit import TimeSformer

device = torch.device("cuda:0")

if __name__ == '__main__':
    opt = argparse.ArgumentParser()
    opt.add_argument('test_list_dir', help="Directory where test features are stored.")
    
    opt = vars(opt.parse_args())

    test_opts = {'feats_dir': opt['test_list_dir']}

    # =================模型建立======================
    model = TimeSformer(img_size=224, num_classes=400, num_frames=8, attention_type='divided_space_time',
                        pretrained_model='/home/user04/extract_feature/TimeSformer_divST_8x32_224_K400.pyth')

    model = model.eval().to(device)
    print(model)

    # ================数据加载========================
    print("Use", torch.cuda.device_count(), 'gpus')
    test_loader = {}

    test_dataset = VideoClassificationDataset(test_opts, 'val')
    test_loader = DataLoader(test_dataset, batch_size=1, num_workers=6, shuffle=False)

    # ===================训练和验证========================
    i = 0
    file1 = open("/home/video.txt", 'r')
    file1_list = file1.readlines()
    for data in test_loader:
        model_input = data['fc_feats'].to(device)
        name_feature = file1_list[i].rstrip().split('\t')[0].split('.')[0]
        i = i + 1
        out = model(model_input, )
        out = out.squeeze(0)
        out = out.cpu().detach().numpy()
        np.save('/home/video_feature/' + name_feature + '.npy', out)
        print(i)

上面两个py文件放在和TimeSformer文件夹同级目录下就好

最终提取的命令为

python extract.py /home/video.txt

这一步的txt文件需要重新生成,格式为视频名加视频提取的帧目录,可以自行生成

最终的视频特征为768维的向量,可以保存为自己想要的数据类型文章来源地址https://www.toymoban.com/news/detail-413735.html

四、输入单独一个视频并提取特征

import os
import sys
import subprocess
import json
import torchvision
import random
import numpy as np
import torch
import torch.nn.functional as F
import cv2
from torch.utils.data import Dataset
from torch.autograd import Variable
from models.transforms import *
from timesformer.models.vit import TimeSformer


device = torch.device("cuda:0")
def get_input(image_path):
    prefix = '{:05d}.jpg'
    feat_path = image_path
    video_data = {}
    images = []

    mean =[0.485, 0.456, 0.406]
    std = [0.229, 0.224, 0.225]
    transform_params = {
        "side_size": 256,
        "crop_size": 224,
        "num_segments": 8,
        "sampling_rate": 5
    }
    transform_val = torchvision.transforms.Compose([
        GroupScale(int(transform_params["side_size"])),
        GroupCenterCrop(transform_params["crop_size"]),
        Stack(roll=False),
        ToTorchFormatTensor(div=True),
        GroupNormalize(mean, std),
    ])
    frame_list = os.listdir(feat_path)
    average_duration = len(frame_list) // transform_params["num_segments"]
    # offests为采样坐标
    offsets = np.array([int(average_duration / 2.0 + average_duration * x) for x in range(transform_params["num_segments"])])
    offsets = offsets + 1
    for seg_ind in offsets:
        p = int(seg_ind)
        seg_imgs = Image.open(os.path.join(feat_path, prefix.format(p))).convert('RGB')
        images.append(seg_imgs)
    video_data = transform_val(images)
    video_data = video_data.view((-1, transform_params["num_segments"]) + video_data.size()[1:])
    out = Variable(video_data)

    return out

def extract(modal, data):
    output = {}
    out_image_dir = '/home/extract_feature/extract_image'
    if modal == 'video':
        # =================模型建立======================
        model = TimeSformer(img_size=224, num_classes=400, num_frames=8, attention_type='divided_space_time',
                        pretrained_model='/home/user04/extract_feature/TimeSformer_divST_8x32_224_K400.pyth')

        model = model.eval().to(device)
        #print(model)
            
        # =================视频抽帧======================
        video_name = data.split('/')[-1].split('.')[0]
        out_image_path = os.path.join(out_image_dir, video_name)
        if not os.path.exists(out_image_path):
            os.makedirs(out_image_path)
        cmd = 'ffmpeg -i \"{}\" -r 1 -q:v 2 -f image2 \"{}/%05d.jpg\"'.format(data, out_image_path)
        subprocess.call(cmd, shell=True,stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)

        # =================提取特征======================
        model_input = get_input(out_image_path).unsqueeze(0).to(device)
        print(model_input.shape)
        out = model(model_input, )
        out = out.squeeze(0)
        out = out.cpu().detach().numpy()
        
            
    return out

video_path = '/home/vi0114457/vi0114457.mp4'
modal = 'video'
out = extract(modal, video_path)

到了这里,关于使用TimeSformer预训练模型提取视频特征的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 51-15 视频理解串讲—TimeSformer论文精读

    今天读的论文题目是Is Space-Time Attention All You Need for Video Understanding? Facebook AI提出了一种称为TimeSformer视频理解的新架构,这个架构完全基于transformer,不使用卷积层。它通过分别对视频的时间和空间维度应用自注意力机制,有效地捕捉动作的时空特征。自transformer提出以来,在

    2024年01月24日
    浏览(41)
  • 【RT-DETR有效改进】利用EMAttention加深网络深度提高模型特征提取能力(特征选择模块)

    本文给大家带来的改进机制是 EMAttention注意力机制 ,它的 核心思想是 ,重塑部分通道到批次维度,并将通道维度分组为多个子特征,以保留每个通道的信息并减少计算开销。EMA模块通过编码全局信息来重新校准每个并行分支中的通道权重,并通过跨维度交互来捕获像素级别

    2024年02月21日
    浏览(42)
  • YOLOv8改进 | 主干篇 | 华为移动端模型Ghostnetv1改进特征提取网络

    本文给大家带来的改进机制是华为移动端模型 Ghostnetv1 ,华为的 GhostNet 是一种轻量级卷积神经网络,旨在在计算资源有限的嵌入式设备上实现高性能的图像分类。 GhostNet的关键思想 在于通过引入Ghost模块,以较低的计算成本增加了特征图的数量,从而提高了模型的性能。这种

    2024年01月19日
    浏览(51)
  • 工具学习——使用OpenSmile提取音频特征

    openSMILE(open-source Speech and Music Interpretation by Large-space Extraction)是一个开源工具包,用于语音和音乐信号的音频特征提取和分类。openSMILE广泛应用于情感计算的自动情感识别。openSMILE完全免费用于研究目的。 在下述网页下载opensmile的安装包,链接 然后进入“/home/public/gl/Mul

    2024年02月20日
    浏览(37)
  • 深度学习应用篇-计算机视觉-视频分类[8]:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制

    【深度学习入门到进阶】必看系列,含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、序列模型、预训练模型、对抗神经网络等 专栏详细介绍:【深度学习入门到进阶】必看系列,含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、

    2024年02月08日
    浏览(56)
  • 使用AutoDecoder自动解码器实现简单MNIST特征向量提取

    自动解码器(AD)是论文\\\"DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation\\\" 中使用的一种方法,与传统编码-解码结构不同,AD无编码器,仅有一个解码器。 解码器实现特征向量(隐向量)与图片之间的转换 。 在训练过程中 同时优化 特征向量与神经网络参数。如

    2024年02月02日
    浏览(44)
  • 【使用深度学习的城市声音分类】使用从提取音频特征(频谱图)中提取的深度学习进行声音分类研究(Matlab代码实现)

     💥💥💞💞 欢迎来到本博客 ❤️❤️💥💥 🏆博主优势: 🌞🌞🌞 博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️ 座右铭: 行百里者,半于九十。 📋📋📋 本文目录如下: 🎁🎁🎁 目录 💥1 概述 📚2 运行结果 🎉3 参考文献 🌈4 Matlab代码实现 使用深

    2024年02月16日
    浏览(37)
  • Opencv 之ORB特征提取与匹配API简介及使用例程

    ORB因其速度较快常被用于视觉SLAM中的位姿估计、视觉里程、图像处理中的特征提取与匹配及图像拼接等领域 本文将详细给出使用例程及实现效果展示 创建 检测 计算 检测与计算 绘制特征点 绘制匹配点对 讲述特征点提取与描述子计算,实现如下: 暴力匹配实现: 其效果如

    2024年02月13日
    浏览(41)
  • python:使用Scikit-image对遥感影像进行梯度特征提取(gradient)

    作者:CSDN @ _养乐多_ 在本博客中,我们将介绍如何使用Scikit-Image来进行梯度特征提取(gradient),并且提供一个示例代码,演示了如何在单波段遥感图像上应用这些方法。 梯度特征是指用于表示图像中亮度或颜色变化的特征。它包括两个关键成分:梯度幅值和梯度方向。梯度

    2024年02月08日
    浏览(74)
  • python:使用Scikit-image库对单波段遥感图像做特征提取

    作者:CSDN @ _养乐多_ 本文将介绍使用Scikit-image库对单波段遥感图像做特征提取的代码。方法包括:颜色直方图特征提取(histogram),纹理特征提取(texture) ,形状特征提取(morphology) ,边缘检测特征提取(edges) ,角点检测特征提取(corner) ,尺度空间特征提取(scale-

    2024年02月10日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包