每日学术速递4.27

这篇具有很好参考价值的文章主要介绍了每日学术速递4.27。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Subjects: cs.CV

1.End-to-End Spatio-Temporal Action Localisation with Video Transformers

每日学术速递4.27

标题:使用视频转换器进行端到端时空动作定位

作者:Alexey Gritsenko, Xuehan Xiong, Josip Djolonga, Mostafa Dehghani, Chen Sun, Mario Lučić, Cordelia Schmid, Anurag Arnab

文章链接:https://arxiv.org/abs/2304.12160

每日学术速递4.27

每日学术速递4.27

每日学术速递4.27

每日学术速递4.27

每日学术速递4.27

摘要:

        性能最高的时空动作定位模型使用外部人员建议和复杂的外部记忆库。我们提出了一个完全端到端的、纯基于变压器的模型,它直接摄取输入视频,并输出小管——一系列边界框和每帧的动作类。我们的灵活模型可以通过对单个帧的稀疏边界框监督或完整的小管注释进行训练。在这两种情况下,它都预测连贯的小管作为输出。此外,我们的端到端模型不需要以建议的形式进行额外的预处理,也不需要在非最大抑制方面进行后处理。我们进行了广泛的消融实验,并在具有稀疏关键帧和完整小管注释的四种不同时空动作定位基准上显着提高了最先进的结果。

2.Total-Recon: Deformable Scene Reconstruction for Embodied View Synthesis

每日学术速递4.27

标题:Total-Recon:用于具体视图合成的可变形场景重建

作者:Chonghyuk Song, Gengshan Yang, Kangle Deng, Jun-Yan Zhu, Deva Ramanan

文章链接:https://arxiv.org/abs/2304.12317

项目代码:https://andrewsonga.github.io/totalrecon

每日学术速递4.27

每日学术速递4.27

每日学术速递4.27

每日学术速递4.27

摘要:

        我们从可变形场景的单目视频中探索具身视图合成的任务。给定一分钟长的人与宠物互动的 RGBD 视频,我们根据演员在场景中的运动得出的新颖摄像机轨迹渲染场景:(1) 模拟目标演员视角的以自我为中心的摄像机和 (2)跟随演员的第三人称摄像机。构建这样一个系统需要重建场景中每个演员的根体和关节运动,以及支持自由视点合成的场景表示。较长的视频更有可能从不同的角度捕捉场景(这有助于重建),但也更有可能包含更大的运动(这使重建复杂化)。为了应对这些挑战,我们提出了 Total-Recon,这是第一种从长单眼 RGBD 视频中逼真地重建可变形场景的方法。至关重要的是,为了扩展到长视频,我们的方法将场景运动分层分解为每个对象的运动,对象本身又分解为全局根体运动和局部关节。为了量化这种“野外”重建和视图合成,我们从专门的立体 RGBD 捕获装置收集了 11 个具有挑战性的视频的地面实况数据,明显优于现有技术。可以在此 https URL 中找到代码、视频和数据。

3.Spatial-Language Attention Policies for Efficient Robot Learning

每日学术速递4.27

标题:高效机器人学习的空间语言注意策略

作者:Priyam Parashar, Jay Vakil, Sam Powers, Chris Paxton

文章链接:https://arxiv.org/abs/2304.11235

每日学术速递4.27

每日学术速递4.27

每日学术速递4.27

每日学术速递4.27

每日学术速递4.27

摘要:

        我们研究如何使用 Transformers 构建和训练用于机器人决策的空间表示。特别是,对于在各种环境中运行的机器人,我们必须能够快速训练或微调机器人感觉运动策略,这些策略对杂波具有鲁棒性、数据效率高,并且可以很好地泛化到不同的环境。作为解决方案,我们提出了空间语言注意策略(SLAP)。SLAP 使用三维标记作为输入表示来训练单个多任务、语言条件动作预测策略。我们的方法在现实世界中使用单个模型在八个任务中显示了 80% 的成功率,并且在引入看不见的杂乱和看不见的对象配置时成功率为 47.5%,即使每个任务只有少数示例。这表示比之前的工作提高了 30%(考虑到看不见的干扰因素和配置,提高了 20%)。文章来源地址https://www.toymoban.com/news/detail-431079.html

到了这里,关于每日学术速递4.27的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 每日学术速递5.12

    CV - 计算机视觉  |  ML - 机器学习  |  RL - 强化学习  | NLP 自然语言处理    1.ImageBind: Holistic AI learning across six modalities 标题:ImageBind:跨六种模式的整体人工智能学习 作者:Mengyuan Yan Jessica Lin Montserrat Gonzalez Arenas Ted Xiao Daniel Kappler Daniel Ho 文章链接:https://dl.fbaipublicfil

    2024年02月04日
    浏览(32)
  • 每日学术速递6.5

    CV - 计算机视觉  |  ML - 机器学习  |  RL - 强化学习  | NLP 自然语言处理    1.Humans in 4D: Reconstructing and Tracking Humans with Transformers 标题:4D 中的人类:用变形金刚重建和跟踪人类 作者:Shubham Goel, Georgios Pavlakos, Jathushan Rajasegaran, Angjoo Kanazawa, Jitendra Malik 文章链接:https://a

    2024年02月09日
    浏览(27)
  • 每日学术速递6.7

    CV - 计算机视觉  |  ML - 机器学习  |  RL - 强化学习  | NLP 自然语言处理    1.The ObjectFolder Benchmark: Multisensory Learning with Neural and Real Objects( CVPR 2023 ) 标题:ObjectFolder 基准测试:使用神经和真实对象进行多感官学习 作者:Ruohan Gao, Yiming Dou, Hao Li, Tanmay Agarwal, Jeannette Bohg, Y

    2024年02月09日
    浏览(26)
  • 每日学术速递4.24

    CV - 计算机视觉  |  ML - 机器学习  |  RL - 强化学习  | NLP 自然语言处理  1.Collaborative Diffusion for Multi-Modal Face Generation and Editing(CVPR 2023) 标题:多模态人脸生成和编辑的协同扩散 作者:Ziqi Huang, Kelvin C.K. Chan, Yuming Jiang, Ziwei Liu 文章链接:https://arxiv.org/abs/2304.10530 项目代码

    2024年02月01日
    浏览(32)
  • 每日学术速递5.23

    CV - 计算机视觉  |  ML - 机器学习  |  RL - 强化学习  | NLP 自然语言处理    1.Tree of Thoughts: Deliberate Problem Solving with Large Language Models 标题:思想树:用大型语言模型有意识地解决问题 作者:Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, Karthik Narasimhan 文章

    2024年02月07日
    浏览(21)
  • 每日学术速递1.30

    CV - 计算机视觉  |  ML - 机器学习  |  RL - 强化学习  | NLP 自然语言处理    1.StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis 标题:StyleGAN-T:释放GANs的力量,实现快速的大规模文本到图像的合成 作者: Axel Sauer, Tero Karras, Samuli Laine, Andreas Geiger, Timo Aila 文

    2024年02月09日
    浏览(19)
  • 每日学术速递6.10

      CV - 计算机视觉  |  ML - 机器学习  |  RL - 强化学习  | NLP 自然语言处理    1.Unifying (Machine) Vision via Counterfactual World Modeling  标题:通过反事实世界建模统一(机器)视觉 作者:Daniel M. Bear, Kevin Feigelis, Honglin Chen, Wanhee Lee, Rahul Venkatesh, Klemen Kotar, Alex Durango, Daniel L.K. Ya

    2024年02月11日
    浏览(30)
  • 4.27 功率谱

     功率信号能量一定是无穷大的      1处解释,由于上述信号是截断信号,只有-T/2 ~ T/2有有效信号,因此有了1式        能量信号和能量密度构成傅里叶变换对 功率信号和功率密度构成傅里叶变换对 自相关函数和他的能量谱或者功率谱构成傅里叶变换对

    2024年02月11日
    浏览(27)
  • END-TO-END OPTIMIZED IMAGE COMPRESSION论文阅读

    END-TO-END OPTIMIZED IMAGE COMPRESSION 单词 image compression 图像压缩 quantizer 量化器 rate–distortion performance率失真性能 a variant of 什么什么的一个变体 construct 构造 entropy 熵 discrete value 离散值 摘要: We describe an image compression method, consisting of a nonlinear analysis transformation, a uniform quantizer,

    2024年02月12日
    浏览(54)
  • 深度学习中端到端(end-to-end)简要理解

    端到端指的是输入是原始数据,输出是最后的结果。而原来的输入端不是直接的原始数据(raw data),而是在原始数据中提取的特征(features)。这一点在图像问题上尤为突出,因为图像像素数太多,数据维度高,会产生维度灾难,所以原来一个思路是手工提取(hand-crafted f

    2024年02月09日
    浏览(60)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包