Cross-modal Moment Localization in Videos论文笔记

这篇具有很好参考价值的文章主要介绍了Cross-modal Moment Localization in Videos论文笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

0.来源

2018年 Cross-modal Moment Localization in Videos

1.摘要

一种称为“语言-时间注意力网络”的方法,该方法利用视频中的时间上下文信息学习单词的注意力。因此,我们的模型可以自动选择“听哪些单词”以定位所需的瞬间。

2.介绍

以一个具有代表性的查询来说:一个摩天轮首先进入视野。之前的模型对于第一次这个特点体现的不够好,作者认为建立一个语言处理模型,对基于不同的视频上下文从查询中自适应地选择关键文本词至关重要。
Cross-modal Moment Localization in Videos论文笔记
如图1所示作者提出了一个跨模态时刻定位网络(ROLE),它可以共同学习查询表示和时间段定位。首先,作者设计了一个语言-时间注意力模块,用于生成有效的查询表示,根据查询文本信息和时刻上下文信息自适应地重新加权每个单词的特征。然后,作者使用一个多模态处理模块来联合建模查询和时间上下文特征。最后,作者训练了一个多层感知器(MLP)网络来估计所需时刻的相关性分数和位置。

3.模型

3.1语言-时间注意网络

Cross-modal Moment Localization in Videos论文笔记

文本进行word 编码得到et,再双向lstm得到每个word representations,再将时间时刻上下文输入注意力模型,该模型能够分配具有更高重要性分数的更有用的单词。
Cross-modal Moment Localization in Videos论文笔记

Cross-modal Moment Localization in Videos论文笔记
在查询中建立了每个单词的集中嵌入后,我们可以构造查询的表示为:
Cross-modal Moment Localization in Videos论文笔记
然后q和c一起用MLP训练,输出向量oL =[scq, δs, δe ]组成。匹配分数scq和定位偏差δs = ts−τs和δe= te−τe。

3.2损失函数

3.2.1对齐损失

和TALL方式一样,给定从视频V和查询Q中提取的一组时刻候选C,我们将时刻查询对分为两组:对齐的P和不对齐的N。
Cross-modal Moment Localization in Videos论文笔记

3.2.2位置损失

Cross-modal Moment Localization in Videos论文笔记
c表示当前的候选视频片段,q表示文本描述, δs和δe分别表示c的起始帧与结束帧在视频中的时间戳,δs∗和δe∗分别表示q所描述的时刻段的起始帧与结束帧在视频中的时间戳。

训练阶段,偏移回归损失只在正样本上执行。作为测试阶段,一旦我们获得了一个对齐得分最高的候选矩,我们就可以添加具有偏移值的预测位置

3.2.2损失函数

Cross-modal Moment Localization in Videos论文笔记

4.实验

4.1数据集

Charades-STA:TALL论文中提出的数据集
DiDeMo:MCN模型论文提出的数据集

4.2性能比较

Cross-modal Moment Localization in Videos论文笔记
Cross-modal Moment Localization in Videos论文笔记

作者认为文章来源地址https://www.toymoban.com/news/detail-490613.html

  • MCN表现最差,它简单地将整个时刻集作为每个候选时刻的上下文特征,就会引入噪声特征并导致负转移,而且模态融合也不够好。
  • CTRL也不够理想,他对于整个查询进行了整体编码,忽视了查询文本当中的关键单词。
  • 作者的ROLE表现的比较好
    Note:由于在DiDeMo数据集中,由于正样本查询对对齐得很好(即,它们之间没有位置偏移),我们只利用对齐损失来训练CTRL和ROLE。

4.3 ROLE的几种变体

  • ROLE_NT:每个单词的注意值只与查询和当前时刻相关,而不考虑其视频上下文。
  • ROLE_NV:只依赖于查询词嵌入的查询注意模型,而不是使用语言-时间上的注意。也就是说,消除了所有的时间视觉信息。
  • ROLE_BI:用Bi-LSTM的最后一个输出的连接作为查询嵌入。
  • ROLE_EQ:意思是我们将等式中的权重设置为单词数量的平均值,即1/T。具体来说,T是输入句子的单词数,这种设置有利于平衡每个单词的贡献。
    Cross-modal Moment Localization in Videos论文笔记

5.未来工作

  • 把相应帧的空间信息整合到我们的模型中
  • 强化学习纳入我们的模型,以自适应地决定下一步看哪里和何时预测,而不需要通过多尺度滑动窗口分割生成候选时刻。
  • 我们计划将哈希模块合并到我们的模型中,以加快检索过程。

到了这里,关于Cross-modal Moment Localization in Videos论文笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Cross-Modal Learning with 3D Deformable Attention for Action Recognition

    标题:基于三维可变形注意力的跨模态学习用于动作识别 发表:ICCV2023 在基于视觉的动作识别中,一个重要的挑战是将具有两个或多个异构模态的时空特征嵌入到单个特征中。在这项研究中,我们提出了一种 新的三维变形变压器 ,用于动作识别, 具有自适应时空感受野和跨

    2024年03月24日
    浏览(57)
  • OrienterNet: visual localization in 2D public maps with neural matching 论文阅读

    题目 :OrienterNet: visual localization in 2D public maps with neural matching 作者 :Paul-Edouard Sarlin, Daniel DeTone 项目地址 :github.com/facebookresearch/OrienterNet 来源 :CVPR 时间 :2023 人类可以使用简单的 2D 地图在 3D 环境中定位自己。不同的是,视觉定位算法主要依赖于复杂的 3D 点云,随着时

    2024年02月11日
    浏览(47)
  • 论文笔记:A Comprehensive Review of Indoor/Outdoor Localization Solutions in IoT era: Research Challenges

    Computer Networks 2022 本地化或定位 使用某些固定节点和移动计算设备来识别可移动/固定设备(智能手机、无人机、手表、信标和车辆)的位置 户外定位【GPS、北斗。。。】 在城市地区和室内环境中存在一些局限性 室内环境更复杂,周围有许多物体 信号干扰 建筑物内的反射高

    2024年02月03日
    浏览(41)
  • 【论文阅读笔记】M3Care: Learning with Missing Modalities in Multimodal Healthcare Data

    本文介绍了一种名为“M³Care”的模型,旨在处理多模态医疗保健数据中的缺失模态问题。这个模型是端到端的,能够补偿病人缺失模态的信息,以执行临床分析。M³Care不是生成原始缺失数据,而是在潜在空间中估计缺失模态的任务相关信息,利用来自具有相似未缺失模态的

    2024年02月04日
    浏览(88)
  • 详解KITTI视觉3D检测模型CMKD: Cross-Modality Knowledge Distillation Network for Monocular 3D Object Detection

    本文介绍一篇激光雷达监督视觉传感器的3D检测模型: CMKD ,论文收录于 ECCV2022 。 在本文中,作者提出了用于单目3D检测的 跨模态知识蒸馏 (CMKD) 网络 ,使用激光雷达模型作为教师模型,监督图像模型(图像模型为CaDDN)。 此外,作者通过 从大规模未标注的数据中提取知识

    2024年01月24日
    浏览(44)
  • wav2lip:Accurately Lip-syncing Videos In The Wild

    飞桨AI Studio - 人工智能学习与实训社区 集开放数据、开源算法、免费算力三位一体,为开发者提供高效学习和开发环境、高价值高奖金竞赛项目,支撑高校老师轻松实现AI教学,并助力开发者学习交流,加速落地AI业务场景 https://aistudio.baidu.com/aistudio/education/group/info/16651 wav

    2024年02月06日
    浏览(50)
  • 论文阅读 HighlightMe: Detecting Highlights from Human-Centric Videos

    摘要: 我们提出了一种与领域和用户偏好无关的方法来检测以人为中心的视频中的精彩片段摘录。我们的方法适用于视频中多种可观察到的以人为中心的模态的基于图形的表示,例如姿势和面部。我们使用配备时空图卷积的自动编码器网络来检测基于这些模式的人类活动和交

    2024年02月16日
    浏览(41)
  • [论文阅读]Self-Supervised Learning for Videos: A Survey

    Schiappa, M. C., Rawat, Y. S., Shah, M. (2023). Self-Supervised Learning for Videos: A Survey. ACM Comput. Surv., 55(13s), 1–37. https://doi.org/10.1145/3577925 论文中文名称:视频的自监督学习综述 摘要: 深度学习在各个领域取得的显著成功依赖于大规模标注数据集的可用性。然而,获取标注是昂贵且需要巨

    2024年01月17日
    浏览(52)
  • GTC 2023 万字纪要 | Don‘t Miss This Defining Moment in AI

    「Don’t Miss This Defining Moment in AI」 「切勿错过 AI 的决定性时刻」 北京时间 2023 年 3 月 21 日 23:00,「皮衣刀客」黄教主在 GTC 2023 发表主题如上的 Keynote 演讲,并称「这将是我们迄今为止最重要的一次 GTC」,NVIDIA官方 Twitter 也放出了本届 GTC 的 AI Wave Top 5. 作为图形技术革命的

    2024年02月12日
    浏览(33)
  • 【论文笔记】ObjectFormer for Image Manipulation Detection and Localization

    发布于CVPR2022 论文链接:https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_ObjectFormer_for_Image_Manipulation_Detection_and_Localization_CVPR_2022_paper.pdf 在本文中,我们提出了ObjectFormer来检测和定位图像操作。 为了捕捉在RGB域中不再可见的细微操作轨迹,我们提取图像的高频特征,并将其与R

    2024年02月04日
    浏览(65)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包