Schiappa, M. C., Rawat, Y. S., & Shah, M. (2023). Self-Supervised Learning for Videos: A Survey. ACM Comput. Surv., 55(13s), 1–37. https://doi.org/10.1145/3577925
论文中文名称:视频的自监督学习综述
摘要:
深度学习在各个领域取得的显著成功依赖于大规模标注数据集的可用性。然而,获取标注是昂贵且需要巨大努力的,特别是对于视频而言更是具有挑战性。此外,使用人工生成的标注会导致模型学习偏见,并且在领域泛化和稳健性方面效果较差。作为替代方案,自监督学习提供了一种无需标注的表示学习方法,在图像和视频领域都显示出了潜力。与图像领域不同,学习视频表示更具挑战性,因为涉及到时间维度,引入了运动和其他环境动态。这也为在视频和多模态领域推进自监督学习提供了机会。在这份综述中,我们回顾了关于自监督学习在视频领域的现有方法。我们将这些方法总结为四个不同的类别,基于它们的学习目标:(1) 先导任务,(2) 生成式学习,(3) 对比学习,和 (4) 跨模态一致性。我们进一步介绍了常用的数据集、下游评估任务、对现有工作局限性的见解,以及这一领域的潜在未来方向。
图1:使用通过自监督学习训练的预训练模型进行下游任务的示意图。该过程始于在无标签数据集上使用自监督学习目标对模型进行预训练。一旦训练完成,学到的权重被用作下游任务上一个较小的带标签数据集的模型初始化。文章来源:https://www.toymoban.com/news/detail-795864.html
图2:近年来自监督(SSL)视频表示学习研究的统计数据。从左到右,我们显示a) 在顶级会议场馆发表的与SSL相关的论文总数,b) 对SSL研究的主要研究主题进行的分类统计,和c) SSL中使用的主要模态的模态分类统计。2022年仍然不完整,因为大多数会议发生在年底。文章来源地址https://www.toymoban.com/news/detail-795864.html
到了这里,关于[论文阅读]Self-Supervised Learning for Videos: A Survey的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!