轨迹预测论文解读系列——几种经典的网络

这篇具有很好参考价值的文章主要介绍了轨迹预测论文解读系列——几种经典的网络。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

背景

首先问大家一个问题,什么是自动驾驶车辆的最大挑战?答案是理解行人的运动并且预知行人之后的轨迹。人类的运动可以被认为是多模态性的,即人类有可能在任何给定的时刻向多个方向移动。而这种行为是自动驾驶汽车面临的最大挑战之一,因为它们的行驶路线受人的影响很大。在本篇博客中,主要介绍几种经典的轨迹预测网络。

SS-LSTM: Social-Scene-LSTM

该文是比较早的用了多个模态的信息输入来预测人类的未来轨迹。文章的网络结构主要时基于RNNs的encoder-decoder架构。

动机

  1. 之前的工作很少将场景的信息和相邻的轨迹考虑到模型设计中,本文提出了一种基于LSTM的分层模型,该模型具有三个层次尺度,融合了所有可能影响行人轨迹的因素。
  2. 能够对人与人之间的交互关系进行很好的建模。

方法

大体框架

轨迹预测论文解读系列——几种经典的网络
该文基于RNNs的架构,使用分层LSTM encoder分别对三个层次(个人,社会,场景)的信息进行特征提取,以及一个LSTM decoder预测人的未来轨迹。

个人层级

对输入的个人轨迹 X i = { x i − T o b s + 1 , ⋯ x i 0 } X_{i}=\{x_{i}^{-T_{obs}+1},\cdots x_i^0 \} Xi={xiTobs+1,xi0}使用LSTM进行编码,其中 x i t x_i^t xit表示第 i i i 个人在 t t t 时刻的位置。我们使用LSTM得到个人轨迹特征: p i t = L S T M p ( X i ) p_i^t = LSTM_p(X_i) pit=LSTMp(Xi)

社会层级

为了学习到附近其他行人的影响,我们为每个行人构建了一张距离地图。通过将行人的邻域划分为不重叠的单元格来构建距离图。在 t t t时刻,第 i i i 个行人与周围邻居之间的空间关系在距离图 O i t O_i^t Oit 中建模。 O i t = ∑ j ∈ N i α x j t O_i^t=\sum_{j\in \mathcal{N}_i}\alpha x_j^t Oit=jNiαxjt; 其中 α \alpha α 是个判别函数,用于判断第 j j j 个行人的坐标是否在第 i i i 个行人的邻域内。我们使用LSTM得到社会层级特征: o i t = L S T M o ( O i ) o_i^t = LSTM_o(O_i) oit=LSTMo(Oi)

场景层级

轨迹预测论文解读系列——几种经典的网络
场景层级就是先使用一个CNN网络提取场景特征 F i t F_i^t Fit,然后将 F i t F_i^t Fit 送入到LSTM得到场景层级的特征: o i t = L S T M s ( F i ) o_i^t = LSTM_s(F_i) oit=LSTMs(Fi)

最后将三个层级的特征拼接到一起送入到一个LSTM的decoder中,得到最后的预测结果。Loss是简单的 L 2 \mathcal{L}_2 L2 损失,计算真实轨迹和预测轨迹的距离。

Social GAN

这是最早使用 GAN 预测人类未来轨迹的论文之一。该文试图通过预测人类在社会上合理的未来轨迹来解决这个问题,这将有助于自动驾驶汽车做出正确的决定。

动机

  1. 在场景中的所有人之间建立一个效率高的交互模型。
  2. 希望可以预测出符合现实场景的多条轨迹。

方法

大体框架

轨迹预测论文解读系列——几种经典的网络
该文提出了一个基于 GAN 的编码器-解码器(encoder-decoder)网络,使用LSTM对每个人的 历史轨迹进行建模和一个池化模块建模它们之间的关系。整个框架主要由三个部分组成。

生成器

生成器由encoder和decoder组成。对于每个人,encoder将输入作为 X i X_i Xi。它对每个人的位置编码,并在 t t t 时刻作为固定长度向量输入到LSTM 单元。LSTM 权重在场景中的所有人之间共享,这将有助于池化模块建模人与人之间的交互关系。与之前的工作不同,该文使用了以下两种方法:

  • 先前的工作中使用隐藏状态来预测二元高斯分布的参数。然而,这在训练过程中引入了困难,因为通过不可微的采样过程进行反向传播。我们通过直接预测坐标来避免这种情况。
  • 没有直接提供社交上下文(轨迹的交互关系)作为编码器的输入,而是间接将encoder的输出经过交互模块后,作为解码器的输入。这导致速度提高到 16 倍。

判别器

判别器的encoder使用LSTM层对每个人的轨迹编码。这个鉴别器的目的是区分真实轨迹和虚假轨迹。理想情况下,如果轨迹不符合现实情况的话,它应该将轨迹分类为“假”。

汇聚模块

轨迹预测论文解读系列——几种经典的网络
汇聚模块的基本思想如Figure3 所示。此方法计算目标人物1(以红色表示)和所有其他人(以蓝色和绿色表示)的相对位置。然后将其与隐藏状态连接起来,并分别送入到MLP中。最终,每个元素通过最大池化得到目标人物1的池化向量 P 1 P_1 P1

Loss

  • Adversarial loss: 该损失是典型的 GAN 损失,有助于区分真实和虚假的轨迹。(你可以理解为 D ( x ) D(x) D(x)是为了让真实轨迹预测趋近于1, D ( G ( Z ) ) D(G(Z)) D(G(Z))是为了让生成的轨迹趋近于0) m i n G m a x D ( G , D ) = E x ∼ p d a t a ( x ) [ l o g D ( x ) ] + E z ∼ p ( z ) [ 1 − l o g D ( G ( z ) ) ] \underset {G}{min} \underset {D}{max} (G,D)=\mathbb{E}_{x \sim p_{data(x)}}[logD(x)] + \mathbb{E}_{z \sim p_{(z)}}[1-logD(G(z))] GminDmax(G,D)=Expdata(x)[logD(x)]+Ezp(z)[1logD(G(z))]
  • L 2 \mathcal{L}_2 L2 Loss: 这种损失取预测和真实轨迹之间的距离,并测量生成的样本与真实样本的距离。
  • Variety Loss:这种损失有助于生成多个不同的轨迹,即多模态轨迹。这个想法非常简单,对于每个输入,通过从 N(0, 1) 中随机采样“z”来预测 N 个不同的可能结果。最终,选择具有最小 L 2 \mathcal{L}_2 L2 值的最佳轨迹。 L v a r i e t y = m i n k ∣ ∣ Y i − Y ^ i k ∣ ∣ 2 \mathcal{L}_{variety} = \underset{k}{min} ||Y_i-\hat{Y}_i^k||_2 Lvariety=kmin∣∣YiY^ik2

Sophie: An Attentive GAN

该文扩展了 Social GAN 的工作,并使用物理和社会信息预测目标的未来路径。尽管目标仍然与 Social GAN 相同,但本文也借助每一帧的图像添加了场景信息。

动机

  • 行人或车辆的轨迹不仅需要受到其自身状态历史的影响,还需要受到相邻的行人或车辆状态,和其路径周围的环境的影响。
  • 网络学习两种类型的注意力:1) 物理注意力:有助于注意和处理周围的局部和全局空间信息。2) 社会注意力,更多地关注周围环境中相邻物体的运动和决策;

方法

轨迹预测论文解读系列——几种经典的网络
本文的框架主要分为 3 个模块(如Figure2 所示),特征提取模块,注意力模块,GAN模块。

特征提取器

这一模块以两种不同的形式从输入中提取特征,第一种是每帧的图像,第二种是每个行人在 t t t 时刻的状态。
为了从图像中提取视觉特征,他们使用了 VGGNet-19 作为 CNN 网络。该网络的权重由 ImageNet 初始化。为了从所有行人的过去轨迹中提取特征,他们使用与 Social GAN 类似的方法,并使用 LSTM 作为编码器。
为了了解行人之间的交互并捕捉每个行人轨迹对另一行人的影响,Social GAN 中使用了池化模块。本文提到了该方法的 2 个限制:

  • Max 函数可能会丢弃输入的重要特征,因为它们可能会失去其唯一性;
  • 在 Max 操作之后,所有的轨迹都被连接起来,这可能导致具有相同的连接特征表示。
    由于这些限制,它们定义了一个排序结构。在此,他们使用 sort 作为置换不变函数而不是 max(在 Social GAN 中使用)。他们通过计算目标行人与其他行人之间的欧几里德距离对行人进行排序。

注意力模块

使用物理或社会注意力机制,该模块有助于突出输入下一个模块的重要信息。随着人类更加关注环境中的某些障碍物或物体,例如即将到来的转弯或走向它们的人,需要学习类似的注意力。如上所述,该网络倾向于学习 两种不同的注意力。
对于物理注意力,来自 GAN 模块的 LSTM 隐藏状态和从场景中学习到的特征作为输入提供。这有助于更多地了解物理约束,例如路径是直的还是弯曲的、当前的移动方向、位置等是什么?
对于社会注意力,从特征提取器中学习的 LSTM 特征以及来自 GAN 模块的 LSTM 的隐藏状态作为输入提供。这会筛选出对未来预测影响大的其他行人轨迹。

GAN

生成器的输入是从注意力模块中选择的特征以及从多元正态分布中采样的噪声 “ z z z”。该模块使用了带有注意力的输入特征,生成一条符合社会现实的行人未来轨迹。GAN 模块主要受到 Social GAN 的启发,几乎没有进一步的变化。Loss 同样用的是 Social Gan 的loss。文章来源地址https://www.toymoban.com/news/detail-400359.html

总结

  • 人体轨迹预测在现实场景有着极具挑战且有着重要的应用,例如人机交互的问题,自动驾驶汽车的感知能力。
  • 如何对人与人之间的交互进行建模是上述方法之间的主要区别。从方法和结果来看,我认为相邻人之间的交互和人于环境的交互也是在之后工作值得探讨的方向。

引用

  1. Xue, Hao, Du Q. Huynh, and Mark Reynolds. “SS-LSTM: A hierarchical LSTM model for pedestrian trajectory prediction.” WACV, 2018.
  2. Agrim Gupta, Justin Johnson, Li Fei-Fei. “Social GAN: Socially Acceptable Trajectories with Generative Adversarial Networks.” CVPR 2018
  3. Amir Sadeghian, Vineet Kosaraju, Ali Sadeghian. “Sophie: An Attentive GAN for Predicting Paths Compliant to Social and Physical Constraints.” CVPR 2018

到了这里,关于轨迹预测论文解读系列——几种经典的网络的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器视觉 多模态学习11篇经典论文代码以及解读

    此处整理了深度学习-机器视觉,最新的发展方向-多模态学习,中的11篇经典论文,整理了相关解读博客和对应的Github代码,看完此系列论文和博客,相信你能快速切入这个方向。每篇论文、博客或代码都有相关标签,一目了然,整理到这里了 webhub123 机器视觉 多模态学习

    2024年02月13日
    浏览(36)
  • 长时间预测模型DLinear、NLinear模型(论文解读)

    今年发布8月份发布的一篇有关长时间序列预测(SOTA)的文章, DLinear 、 NLinear 在常用9大数据集(包括ETTh1、ETTh2、ETTm1、ETTm2、Traffic等)上MSE最低,模型单变量、多变量实验数据: 在计算资源与效率上,DLinear模型时间复杂度为O(L),且模型非常小巧,下面为其他 Transformer 时间

    2024年02月02日
    浏览(24)
  • 视觉Transformer经典论文——ViT、DeiT的与原理解读与实现

    最近ChatGPT、文心一言等大模型爆火,追究其原理还是绕不开2017年提出的Transformer结构。Transformer算法自从提出后,在各个领域的相关工作还是非常多的,这里分享之前在其他平台的一篇笔记给大家,详细解读CV领域的两个经典Transformer系列工作——ViT和DeiT。 论文地址:An Ima

    2024年02月14日
    浏览(54)
  • 【论文解读】基于图的自监督学习联合嵌入预测架构

    一、简要介绍 本文演示了一种学习高度语义的图像表示的方法,而不依赖于手工制作的数据增强。 论文 介绍了基于图像的联合嵌入预测架构(I- JEPA ),这是一种用于从图像中进行自监督学习的非生成性方法。I- JEPA 背后的 idea 很简单:从单个上下文块中,预测同一图像中不

    2024年02月10日
    浏览(42)
  • VLM 系列——中文CLIP——论文解读

        CLIP 的中文版《Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese》,训练使用2亿 图-文 对的对比学习(不是LLM的预测下一个token),是一个双塔模型(图像和文本各子拥有一个编码器)。由于对齐了图像和文本特征,可以用来做:图-图(文章中没有相关测试任务)、图

    2024年01月24日
    浏览(62)
  • GPT系列论文解读:GPT-2

    GPT(Generative Pre-trained Transformer)是一系列基于Transformer架构的预训练语言模型 ,由OpenAI开发。以下是GPT系列的主要模型: GPT:GPT-1是于2018年发布的第一个版本,它使用了12个Transformer编码器层和1.5亿个参数。GPT-1的训练数据包括了互联网上的大量文本。 GPT-2:GPT-2于2019年发布

    2024年02月07日
    浏览(55)
  • VLM 系列——Instruct BLIP——论文解读

        Instruct BLIP 全称《InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning》,是一个多模态视觉-文本大语言模型,隶属BLIP系列第三篇,可以完成:图像描述、视觉问答、名画名人等识别(问答、描述)。支持单幅图片输入(作为第一个输入),多轮文本对话。

    2024年01月23日
    浏览(51)
  • AIGC系列之:ControlNet原理及论文解读

    《Adding Conditional Control to Text-to-Image Diffusion Models》 目录 1.背景介绍 2.原理详解 2.1 Controlnet 2.2 用于Stable Diffusion的ControlNet 2.3 训练 2.4 推理 3.实验结果 3.1 定性结果 3.2 消融实验 3.3 和之前结果比较  3.4 数据集大小的影响 4.结论         Stable Diffusion大模型的开源,使得AI绘画

    2024年01月22日
    浏览(47)
  • 论文解读 | YOLO系列开山之作:统一的实时对象检测

    原创 | 文 BFT机器人  01 摘要 YOLO是一种新的目标检测方法,与以前的方法不同之处在于它将目标检测问题视为回归问题,同时预测边界框和类别概率。这一方法使用单个神经网络,可以从完整图像中直接预测目标边界框和类别概率,实现端到端的性能优化。 YOLO的速度非常快

    2024年02月05日
    浏览(52)
  • 【YOLO系列】YOLOv2论文超详细解读(翻译 +学习笔记)

    时隔一年,YOLOv2隆重登场,新的YOLO版本论文叫《YOLO9000: Better, Faster, Stronger》,作者 Joseph Redmon 和 Ali Farhadi 在 YOLOv1 的基础上,进行了大量改进,提出了 YOLOv2 和 YOLO9000,重点解决YOLOv1召回率和定位精度方面的不足。 论文原文:[1612.08242] YOLO9000: Better, Faster, Stronger (arxiv.org) 项

    2023年04月08日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包