论文阅读 HighlightMe: Detecting Highlights from Human-Centric Videos

这篇具有很好参考价值的文章主要介绍了论文阅读 HighlightMe: Detecting Highlights from Human-Centric Videos。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

摘要:

我们提出了一种与领域和用户偏好无关的方法来检测以人为中心的视频中的精彩片段摘录。我们的方法适用于视频中多种可观察到的以人为中心的模态的基于图形的表示,例如姿势和面部。我们使用配备时空图卷积的自动编码器网络来检测基于这些模式的人类活动和交互。我们根据帧的代表性训练网络,将不同模态的基于活动和交互的潜在结构表示映射到每帧的突出得分。我们使用这些分数来计算要突出显示哪些帧并缝合连续帧以生成摘录。我们在大规模 AVA-Kinetics 动作数据集上训练我们的网络,并在四个基准视频集锦数据集上对其进行评估:DSH、TVSum、PHD2 和 SumMe。我们观察到,与这些数据集中最先进的方法相比,匹配人工注释的精彩片段的平均精度提高了 4-12%,而无需任何用户提供的首选项或特定于数据集的微调。

引言:

以人为中心的视频关注人类活动、任务和情感 。来自多个领域(例如业余体育和表演、讲座、教程、视频博客 (vlog) 以及个人或团体活动,例如野餐和户外活动、假期旅行)的视频构成了快速增长的在线媒体数量的主要部分

然而,未经编辑的以人为中心的视频也往往包含大量不相关和不感兴趣的内容,需要对其进行编辑以实现高效浏览。

为了解决这个问题,研究人员开发了多种技术来检测精彩镜头的摘录和总结视频 。给定未经编辑的镜头,高光检测会获取感兴趣的时刻,而摘要会计算最相关和最具代表性的摘录集。检测有效的高光不仅可以加快浏览速度,还可以提高这些精彩镜头被共享和推荐的机会。当前的方法可以学习在给定带注释的高光或不同高光类别的示例集的情况下检测这些摘录,例如,从滑雪图像中学习以检测视频中的滑雪摘录 。其他方法通过学习每个帧或镜头相对于原始视频的代表性并利用视频元数据(例如持续时间和镜头的相关性)来消除监督学习。所有这些方法都假设或受益于未编辑镜头的某些特定领域知识,例如,跑步和跳跃可文章来源地址https://www.toymoban.com/news/detail-565694.html

到了这里,关于论文阅读 HighlightMe: Detecting Highlights from Human-Centric Videos的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读-AVoiD-DF: Audio-Visual Joint Learning for Detecting Deepfake(多模态数据集DefakeAVMiT+多模态鉴伪方法AVoiD-DF)

    论文名称:AVoiD-DF: Audio-Visual Joint Learning for Detecting Deepfake 作者团队:   以前的方法仅侧重单模态的伪造,即使有多模态的数据也只是将音频信号当做监督信号,忽略了音频被伪造的可能。 提出一个新的多模态基准数据集DefakeAVMiT,其包含足够多的视频和音频伪造内容,两个

    2024年02月03日
    浏览(40)
  • 【论文阅读】Generative Pretraining from Pixels

    引用: Chen M, Radford A, Child R, et al. Generative pretraining from pixels[C]//International conference on machine learning. PMLR, 2020: 1691-1703. 论文链接: http://proceedings.mlr.press/v119/chen20s.html 受自然语言中无监督表示学习进展的启发,作者研究了类似的模型是否能够学习图像的有用表示, 训练了一个序

    2024年03月11日
    浏览(46)
  • 【论文阅读】Learing to summarize from human feedback

    更多关于大模型的文章可见:ShiyuNee/Awesome-Large-Language-Models: Papers about large language models (github.com) 该仓库持续更新 通过训练模型来向着人类偏好优化可以显著提高摘要质量。 High-level methodology 从一个在摘要数据集上使用SFT微调好的初始模型开始,然后经过以下三个步骤: 从已

    2024年02月09日
    浏览(33)
  • 论文阅读:Offboard 3D Object Detection from Point Cloud Sequences

    目录 概要 Motivation 整体架构流程 技术细节 3D Auto Labeling Pipeline The static object auto labeling model The dynamic object auto labeling model 小结 论文地址: [2103.05073] Offboard 3D Object Detection from Point Cloud Sequences (arxiv.org)     该论文提出了一种利用点云序列数据进行离线三维物体检测的方法,称

    2024年02月06日
    浏览(48)
  • On Moving Object Segmentation from Monocular Video with Transformers 论文阅读

    标题 :On Moving Object Segmentation from Monocular Video with Transformers 作者 : 来源 :ICCV 时间 :2023 代码地址 :暂无 通过单个移动摄像机进行移动对象检测和分割是一项具有挑战性的任务,需要了解识别、运动和 3D 几何。将识别和重建结合起来可以归结为融合问题,其中需要结合外

    2024年02月08日
    浏览(51)
  • 论文阅读-BotPercent: Estimating Twitter Bot Populations from Groups to Crowds

    目录 摘要 引言 方法 数据集 BotPercent架构 实验结果 活跃用户中的Bot数量 Bot Population among Comment Sections  Bot Participation in Content Moderation Votes  Bot Population in Different Countries’ Politics 论文链接:https://arxiv.org/pdf/2302.00381.pdf         Twitter机器人检测在打击错误信息、识别恶意在

    2024年02月14日
    浏览(36)
  • 论文阅读《Learning Adaptive Dense Event Stereo from the Image Domain》

    论文地址:https://openaccess.thecvf.com/content/CVPR2023/html/Cho_Learning_Adaptive_Dense_Event_Stereo_From_the_Image_Domain_CVPR_2023_paper.html   事件相机在低光照条件下可以稳定工作,然而,基于事件相机的立体方法在域迁移时性能会严重下降。无监督领域自适应作为该问题的一种解决方法,传统的

    2024年02月04日
    浏览(37)
  • A Survey of Embodied AI: From Simulators to Research Tasks 论文阅读

    题目 :A Survey of Embodied AI: From Simulators to Research Tasks 作者 :Jiafei Duan, Samson Yu 来源 :arXiv 时间 :2022 通过评估当前的九个具体人工智能模拟器与我们提出的七个功能,本文旨在了解模拟器在具体人工智能研究中的使用及其局限性。 本文调查了实体人工智能的三个主要研究任

    2024年02月14日
    浏览(48)
  • 论文阅读:Dense Depth Priors for Neural Radiance Fields from Sparse Input Views

    CVPR2022 首先我们由一组室内的RGB图像 { I i } i = 0 N − 1 , I i ∈ [ 0 , 1 ] H × W × 3 {I_i}^{N-1}_{i=0}, I_i in [0,1]^{H times W times 3} { I i ​ } i = 0 N − 1 ​ , I i ​ ∈ [ 0 , 1 ] H × W × 3 。 通过SFM的方法,我们可以获得相机位姿 p i ∈ R 6 p_i in mathbb{R}^6 p i ​ ∈ R 6 , 内参矩阵 K i ∈ R 3 ×

    2024年02月09日
    浏览(46)
  • 论文阅读-Training a Helpful and Harmless Assistant withReinforcement Learning from Human Feedback

    一、论文信息 论文名称: Training a Helpful and Harmless Assistant withReinforcement Learning from Human Feedback  Github:  GitHub - anthropics/hh-rlhf: Human preference data for \\\"Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback\\\" 作者团队: 发表时间: 2022年4月12日,比insturctgpt晚40天,比

    2024年02月10日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包