首篇！多模态轨迹预测最新综述，全面分析领域前沿！

这篇具有很好参考价值的文章主要介绍了首篇！多模态轨迹预测最新综述，全面分析领域前沿！。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

摘要

轨迹预测是为自动系统提供安全和智能行为的一项重要任务。多年来已经提出了许多改进空间和时间特征提取的前沿方法。然而，人类行为天然是多模态和不确定的：给定过去的轨迹和周围环境信息，智能体可以在未来有多个可能的轨迹。为了解决这个问题，最近研究了一项基本任务，即多模态轨迹预测 (MTP) ，其目的是为每个智能体生成多样化、可接受且可解释的未来预测分布。本文是MTP的第一个综述，通过独特的分类法和对框架、数据集和评估指标的综合分析。此外，本文讨论了可以帮助研究人员提出新的多模态轨迹预测系统的多个未来方向。

1 介绍

多年来，轨迹预测在社交机器人和自动驾驶汽车等自主系统中受到了极大的关注。它旨在根据过去的轨迹和周围环境（包括地形和障碍物等静态因素以及周围移动智能体等动态因素）预测车辆、行人和骑自行车者等道路使用者的未来轨迹。

传统的轨迹预测探索物理模型来模拟人类行为，其中使用物理模型预测未来的运动，例如社会力 [Helbingand Moln´ar, 1995]，它将聚集和避免碰撞等社会行为描述为吸引力和排斥力。但是，此类模型无法处理复杂的交互作用，其预测不是类似人类的未来预测。最近，已经提出基于学习的模型使用高级模块从数据集中学习复杂的空间和时间交互，例如池化 [Alahi et al., 2016]、注意力 [Gupta et al., 2018]和图神经网络[Mohamed et al., 2020; Huang et al., 2019]

轨迹预测通常被表述为确定性轨迹预测 (DTP) 任务，其中模型仅为每个智能体提供一个预测。然而，DTP 受到有限社会线索的不确定性的严重影响，其性能通常受到限制。以图1为例，假设智能体要进入大楼，观察到的路径表明它也可能过马路或走人行道。由于所有场景都是合理的，因此 DTP 在没有足够线索（例如人类意图）的情况下预测单个轨迹是不现实的。

因此，Gupta et al. [2018], 提出了一项名为多模态轨迹预测 (MTP) 的任务，其中该模型可以提供多种预测以涵盖未来轨迹的所有模态，即可能的路径。MTP 可以处理预测的不确定性，并且已成为几乎所有近期研究中的默认设置。一些方法侧重于改进特征提取模块，而另一些方法则尝试仅使用一个真实未来轨迹来生成更多样化和社会可接受的分布。

本文提出了第一个多模态轨迹预测综述。现有的行人轨迹预测综述 [Rudenko et al., 2020] 和车辆轨迹预测综述 [Teeti et al., 2022] 都从特征提取的角度构建了它们的分类法，而将MTP 作为辅助内容简要介绍。作为轨迹预测中更现实的场景，我们认为需要更深入的调查和分析。本文提供了 MTP 框架、数据集和评估指标的分类法，并分析了它们的优势和问题。然后，本文讨论了应该成为未来研究重点的潜在方向。

2 背景

智能体

轨迹预测中的智能体是具有自我认知的道路使用者，例如行人、驾车者或骑自行车的人。

轨迹

轨迹预测中智能体的轨迹定义为二维现实世界或像素坐标的序列：，其中是时间戳观测轨迹，是时间步长的真值，是场景个智能体的索引。都包含2D索引。

轨迹预测

轨迹预测的目标是使用观测信息作为输入，优化模型以预测个未来轨迹：

其中是智能体的相邻观测轨迹，是场景信息，例如雷达数据，高精地图，场景图等。当时，每个智能体只允许进行一次预测，任务是确定轨迹预测 (DTP) 并且与相比期望预测误差最小。否则，它变成多模态轨迹预测（MTP），旨在预测所有可接受的未来轨迹的分布。

DTP 标准框架

DTP 框架通常遵循图 3a 所示的序列到序列结构，其中过去编码从观察到的信息中提取空间和时间信息，解码器预测未来的路径。为了构建 DTP 模型，过去的编码可以是 (1) 时间、社会和物理特征的编码模块的组合 [Xue et al., 2018; Sadeghian et al., 2019; Dendorfer et al., 2021]； (2) 基于 CNN 的光栅高清地图 [Wang et al., 2020] 或热图 [Mangalam et al., 2021] 编码模块；或 (3) 基于图形神经网络的矢量化高清地图编码模块 [Gao et al., 2020]。解码器可以是基于循环网络的自回归模块或基于 MLP 或基于 CNN 的非自回归模块。重建损失（例如 l1 或 l2 损失）用于优化预测，以达到期望的预测与真实的误差较小。 MTP 模型也可以在它们的框架中使用这些过去的编码和解码，除了它们的解码是用不同的特征输入重复执行的。

轨迹预测中的多模态

给定观察到的信息，可以对智能体有多个合理且社会可接受的未来预测。因此，它不同于其他多模态学习任务中的数据模态。由于可以从环境中获得的线索有限以及每个运动的固有随机性，不太可能期望模型预测一个一致且精确匹配真实轨迹的未来轨迹。因此，MTP 要求模型提供多个人类可以接受的轨迹。

3 MTP框架

从 MTP 模型预测的“良好”分布应满足以下几个方面：

多样性，其中预测分布应涵盖所有可能的解决方案；
社会接受度，其中预测的路径应该符合过去的轨迹并遵循社会规范；
可解释性/可控性，其中每个预测都应遵循合理的意图或受可理解条件的控制。

这是具有挑战性的，因为最优分布是仅使用一个真实轨迹来估计的，这通常会导致预测的多样性和不可接受性。为了解决这个问题，许多高级框架已被提出。在本节中，我们回顾了 MTP 框架及其在图 2 中的分类法和图 3 中的通用流程。

3.1 基于噪声的 MTP 框架

将 DTP 转换为 MTP 的最简单方法是向模型中注入随机噪声。本节中将讨论 Gupta et al. [2018]介绍的基于噪声的 MTP 框架。其中来自过去编码器的特征与高斯噪声向量连接在一起并一起发送到解码器以进行不同的预测。使用最小重建误差通过variety loss优化预测：

如 Gupta et al. [2018]所述，variety loss可以成功缓解重建损失带来的模态崩塌问题。Thiede 和 Brahma [2019] 解释说，用variety loss训练的学习器可以收敛到 ground truth 概率密度函数的平方根，这进一步说明了这种损失函数的成功。

该框架可以简单地集成到任何 DTP 模型中，并已广泛用于轨迹预测。然而，这个框架可能会产生不符合实际的预测并且难以控制。为了解决这个问题，提出了许多先进的生成框架。

生成对抗网络 (GAN)

为了得到高质量的预测，需要一种特殊的损失函数来区分坏预测和好预测，称为对抗损失。Gupta et al. [2018]介绍了基于 GAN 的 MTP 框架及其第一个模型 S-GAN。通用流程如图 3b 所示，其中学习了一个鉴别器来对未来轨迹是真实轨迹还是预测进行分类，对抗性损失是其交叉熵结果。进一步的工作旨在使用更高级的 GAN 框架来提高性能。例如，Kosaraju et al. [2019] 提出了 Social-BiGAT，它遵循 BicycleGAN 在每一代与其潜在噪声向量之间执行可逆转换，以进一步缓解模态崩塌。同时，Amirian et al. [2019] 声称重建损失是导致模态崩塌的主要因素。因此，他们的模型 S-Way 贬低了这种损失，并跟随 InfoGAN 使用潜在编码来控制预测。Dendorfer et al. [2021]表明未来路径分布的流形已经不连续，因此其他基于 GAN 的方法不能很好地覆盖。因此，他们提出了使用多个解码器的 MG-GAN，每个解码器处理一个连续的子流形。

条件变分自编码器 (CVAE)

基于 CVAE 的轨迹预测模型 [Lee et al., 2017; Yuan et al., 2021; Chen et al., 2021]遵循[Sohn et al., 2015] 最大化特征分布的证据下限，如图 3c 所示，是得到多样化预测的替代方案。此外，可以更好地控制和增强 CVAE 的潜在分布。例如，Dis-Dis [Chen et al., 2021] 和 ABC [Halawa et al., 2022] 通过对比学习区分特征分布来预测个性化和动作已知的运动模式。最近一个名为 SocialVAE [Xu et al., 2022] 的模型通过将 CVAE 与循环网络一起应用来使用时间维度的 CVAE。本文强烈建议[Ivanovic et al., 2021] 对轨迹预测中的 CVAE 进行全面概述。

归一化流 (NF)

由于隐式分布建模，基于 GAN 或 CVAE 的模型很难训练。因此，基于 NF 的 MTP 框架被提出通过图 3d 所示的可逆网络显式学习数据分布，它可以通过可逆转换将复杂的分布转换为易于处理的形式。例如，HBAFlow [Bhattacharyya et al., 2021] 使用基于 Haar 小波的块自回归模型，该模型拆分耦合以学习运动预测的分布，而FloMo [Sch¨oller and Knoll, 2021] 使用单调合理性二次样条进行表达和快速反转。STGlow [Liang et al., 2022]提出了具有模式归一化的生成流，以学习以社交交互表示为条件的运动行为。然而，没有能够处理不连续流形的基于 NF 的模型。一个看似合理的解决方案是效仿 MG-GAN 使用多个可逆解码器。

3.2 锚点条件MTP框架

为了有效地指导模型预测具有受控行为的轨迹，有人提出每个预测都应以先验为条件 [Chai et al., 2020; Zhao et al., 2021]，也命名为锚点，对每种模态都是明确的。众所周知的锚点包括端点，智能体可能到达的最终位置，或原型轨迹，智能体可能遵循的基本动作。理想情况下，使用锚点可以有效缓解模态崩塌问题，并得到更稳健和可解释的预测。本文将使用锚点的框架分类为锚点条件 MTP 框架。该框架通常包含两个子任务：(1)锚点选择，从锚点集合中选出K个可能的锚点； (2) waypoint 编码，根据给定的锚点预测way points，最终预测未来的轨迹。锚点的选择可以通过随机抽样或 top K 排序来进行。然后选择“最佳”锚作为教师力量在训练期间优化路点解码[Williams and Zipser, 1989]。然后选择“最佳”锚作为指导力量在训练期间优化waypoint 解码[Williams and Zipser, 1989]。在本节中，讨论了两个衍生框架，分别使用端点和原型轨迹作为锚点，分别称为预测终点条件（PEC）和原轨迹条件（PTC）框架。

预测终点条件（PEC）框架

直观地说，智能体可以首先决定他们将到达的位置然后计划他们未来的轨迹[Rehder and Kloeden,2015]。这引入了 PEC 框架，其中可以将终点预测为锚点，并生成路径点以到达这些位置。如图 3e 所示，该框架首先通过终点解码器预测终点分布。然后，路径点解码器预测给定每个选定终点的中间位置。在训练期间，选择真实终点，以便增强预测路径点与条件终点之间的关系。在测试期间，终点是通过从热图中随机或前 K 个采样来选择的。 PEC框架由于其简单性和有效性而被广泛用于当前的轨迹预测方法中。

Mangalam et al. [2020] 首先介绍了 PEC 框架工作并提出了 PECNet，它使用 CVAE 生成多个端点。进一步的方法表明，如果预测可以由符合场景的终点控制，则模型可以获得更好的性能。例如，TNT [Zhao et al., 2021] 和 DenseTNT [Gu et al., 2021] 通过对车道中心线的位置进行采样来预测车辆的终点，而 YNet [Mangalam et al., 2021] 和 Goal-GAN [Dendorfer et al. .,2020] 通过整合观察到的轨迹和场景分割图像直接预测终点热力图。同时，ExpertTraj [Zhao and Wildes, 2021] 建议可以通过免训练过程从现有轨迹存储库中以最小的动态时间转换差异进行采样来获得终点。此外，PEC 框架工作可以通过对终点和中间路径点进行调节来帮助进行长期预测[Mangalam et al., 2021; Wang et al., 2022]。Tran et al. [2021] 估计智能体离开观察区域的整个行程的目的地，以更好地控制动态预测范围内的未来轨迹。未来的 PEC 模型可以专注于避免由于中间障碍而无法到达的终点，并利用到同一终点的路径点的多模态。

原轨迹条件 (PTC) 框架

PTC 框架的锚点集是原轨迹，每个轨迹代表一种模态并提供路径点应遵循的基本运动并进行必要的改进。如图 3f 所示，PTC 框架学习从锚点集中选择候选原轨迹，并在路径点解码阶段通过残差解码器将它们的残差预测到真值。为了构建具有足够多样性的锚集，为了构建具有足够多样性的锚点集，可以使用 MultiPath [Chai et al., 2020] 中的 k-means 算法对现有数据集中的轨迹进行聚类，并使用 CoverNet[Phan-Minh et al., 2020]中的贪心近似算法进行装袋。此外，S-Anchor [Kothari et al., 2021] 通过离散选择模型 [Antonini et al., 2006] 构建具有不同速度和方向的集合，以整合社会交互。SIT [Shi et al., 2022] 构建树状路线图并动态选择和细化路径段。显然，使用原轨迹可以简化训练并实现多样性。然而，当前的原轨迹通常过于简单，无法处理复杂的场景。因此，可以在未来的工作中探索更高级的原轨迹。

3.3 基于网格的 MTP 框架

基于网格的 MTP 框架是一种替代方法，它使用占用网格图来指示智能体将在下一个时间步长到达的位置。如图 3g 所示，场景被划分为网格单元，模型预测每个单元格中的占用概率，该概率由每个时间步的观测信息确定。多模态预测可以在 TDOR [Guo et al., 2022] 中通过 Gumbel Softmax 对下一个位置的精确决策进行采样来获得，或者在 Multiverse [Liang et al., 2020] 和 ST-MR [Li et al., 2022] 中搜索具有top K 个累积对数概率的轨迹。基于网格的框架的主要好处是它们可以高度兼容具有高级训练策略（例如强化学习或占用损失）的场景，并且适用于长期预测。然而，由于卷积运算的大量计算和对地图分辨率的高度敏感，它很少被使用。

3.4 用于输出表示的双变量高斯

一些模型不是回归精确的二维坐标，而是在每个时间步假设位置的双变量高斯分布。这些模型的目标是通过负对数似然损失来最大化预测分布中真实情况的可能性。该策略首先在 S LSTM [Alahi et al., 2016] 中用于确定性预测，但由于其不可微位置采样而被基于 GAN 的模型替代。然后，它在 Social STGCNN [Mohamed et al., 2020] 和 [Shi et al., 2021] 中重新用于 MTP，其中可以通过从预测分布中采样 K 个未来位置来获得多个轨迹。

然而，输出位置是单独采样的，可能在时间上不相关，导致不切实际的预测。一种解决方案是将其与递归神经网络集成，作为一种特殊的基于网格的框架来生成不同的预测。它还可以与基于锚点的 MTP 框架相结合，以避免期望最大化训练过程，并可视化每个时间步长下的不确定性，以实现更好的优化 [Chai et al., 2020]。

3.5 其它改进 MTP 的技术

改进判别器

已经提出基于 GAN 模型中的高级判别器来提高生成轨迹的质量。Parth and Alexandre [2019] 和 Huang et al. [2020]提出改进的判别器以简化循环神经网络的对抗训练。SC-GAN [Wang et al., 2020] 使用可区分的栅格化地图和场景图像增强判别器以检查场景合规性，而一些方法提出改进的判别器以确保社会接受度[Kothari and Alahi, 2022; van der Heiden et al., 2019]。

改进采样技巧

由于采样数量有限，从 MTP 模型中随机采样可能无法涵盖所有模态。因此，提出了改进采样技巧来确保分布的覆盖范围。例如，Ma et al. [2021] 提出了名为似然多样化采样(LDS) 的后处理方法，通过平衡单个轨迹的可能性和轨迹之间的空间分离来训练采样模型，从而提高基于流的方法的质量和多样性，并且还可以适用于其他框架。 Mangalam et al. [2021] 提出测试时间采样技巧，将采样终点聚类到 K 个中心，以更广泛地覆盖预测终点。 Bae et al. [2022] 提出通过基于蒙特卡洛方法的非概率采样网络来生成无偏样本。

4 MTP数据集和基准

轨迹预测的数据集和基准

MTP 和 DTP 的现有广泛使用的基准包括 ETH 和 UCY [Lerner et al., 2007] 和用于行人的Stanford Drone Dataset [Robicquet et al., 2016] 和用于车辆的 NuScenes [Caesar et al., 2020]，Argoverse [Chang et et al.,2019] 和 Waymo [Ettinger et al., 2021]。每个都提供带注释的轨迹和由视频、参考图像或高清 (HD) 地图表示的环境信息。

玩具实验的合成数据集

每个数据集中轨迹的分布是隐式的，因此很难评估模型是否正确地符合分布。因此，已经提出了简单且可控分布的合成数据集用于评估。例如，Amirian et al. [2019]提出了一个包含六组轨迹的玩具数据集，每组轨迹从一个特定点开始，并遵循三种不同的方式到达终点。Chai et al. [2020]提出了一个3路交互玩具数据集，有选择左、中或右路径集的概率。使用这些数据集的实验突出了当前框架中的模态崩塌问题和社会接受度。

ForkingPath: 特殊的MITP基准

Liang etal. [2020] 提出当前的轨迹预测基准都存在相同的问题，即只为每个智能体提供一个可能的真值轨迹，这不适合 MTP 评估。为了解决这个问题，他们提出了 ForkingPath 数据集，该数据集为每个智能体提供多个人工标注的真值轨迹，以实现真值分布可视。更多的研究 [Dendorfer et al., 2021; Ma et al., 2021] 也用它来比较预测分布和真值分布。

5 评价指标

在DTP中，默认的评估指标是平均位移误差（ADE）和最终位移误差（FDE），它们分别衡量通过所有未来时间步长和最后一个未来时间步长到真值轨迹的l2距离。此外，还有多个衡量社会接受度的指标，例如碰撞率、重叠率和越野率，用于衡量智能体的预测轨迹是否与周围智能体发生碰撞或进入无法进入的区域。 MTP 的评估指标需要考虑所有预测，因此更具挑战性。在本节中，我们回顾了图 4 中分类法总结的这些 MTP 指标及其挑战。

5.1 基于下限的 MTP 指标

基于下限的 MTP 指标简单且在 MTP 中广泛使用。给定 K 个预测轨迹，将每个预测与真值进行比较，并在不考虑确切置信度的情况下记录最佳分数。因此，这些指标可以简单地从 DTP 的指标转换而来，并且对轨迹预测中的任何模型都有效。

Minimum-of-N (MoN)

MoN 在 [Gupta et al., 2018] 中首次提出，是大多数 MTP研究的默认指标。它计算所有预测中的最小误差：

其中 DE 可以是 DTP 中使用的任何距离度量。许多工作采用这种策略使 ADE 和 FDE 适用于多模态预测，缩写为和，它们成为所有多模态轨迹预测方法和基准中的默认指标。

Miss Rate (MR)

一些车辆轨迹预测基准如 Waymo、Argoverse 和 nuScenes 使用 MR 来表示预测是否可以覆盖真值。如果根据他们的位移误差，预测与真值的距离超过 d 米，则预测未命中真值，否则会命中。 MR 统计了所有预测都未命中真值的场景：

其中 FDE 在 Argoverse 和 Waymo 基准测试中用作位移度量，而 ADE 在 NuScenes 中使用。距离阈值 d 在 Argoverse 和 NuScenes 中为 2 米，在 Waymo 基准测试中随速度调整。

挑战：信息泄漏

基于下限的指标对随机化很敏感，并且不足以表示模型的性能。信息泄漏在测试期间发生，因为只有最好的预测才会用于基于与真值的距离的评估。这允许具有高熵的分布以获得较低的错误。例如，恒速模型 (CVM) [Schöoller et al., 2020] 甚至可以通过调整角度以获得更广泛的分布来“胜过”基于深度学习的模型。这进一步导致交互处理的不可靠指示。例如，违反社交规则的预测可以从没有社交互动模块的 DTP 模型中生成，并且在 MTP 中被忽略，因为选择了最佳预测。

概率已知 MTP 指标

概率已知指标衡量从预测分布中抽取基本事实的可能性有多大。与下限指标相反，MTP 模型需要将最高概率标记为最佳预测。

基于最有可能 (ML) 的指标

最简单的方法是选择概率最高的预测来执行 DTP 评估。例如，ML 指标 [Chen et al., 2021] 只是选择最可能的预测进行 ADE 和 FDE 计算，以及 Waymo 基准中的重叠率计算。同样，平均精度 (mAP) 用于 Waymo 基准测试 [Ettinger et al., 2021]。如果最有可能的预测与基本事实一致，则被认为是真阳性；否则，它是误报。所有其他预测都被指定为误报。然后，它计算精确召回曲线下的面积。从 2022 年开始，Waymo 基准测试使用 Soft mAP，它与 mAP 相同，只是它忽略了除最可能预测之外的预测惩罚。

基于 TopK 的指标

Chen et al. [2021]表示一个预测不能代表整个分布。因此，我们可以在 M >> K 个预测中选择概率大于阈值的候选者进行 MoN 评估，称为概率累积最小距离（PCMD）：

然后，选择具有前 K 个概率的预测。但是，如果未提供每个预测的概率，则无法使用它。为了解决这个问题，我们可以使用第 3.5节中的采样技巧来选择 K 个预测。

基于高斯的指标

如果未提供概率，则另一种方法是首先使用核密度估计 (KDE) 等方法，通过估计给定独立随机变量序列的概率密度函数，在给定 K 个离散预测的情况下估计高斯分布。在轨迹预测中 [Ivanovic and Pavone, 2019] 首先引入 KDE-NLL 作为 MTP 中的评估指标之一，它计算每个未来时间步的真值轨迹的平均对数似然：

并进一步用于后续研究，例如 [Man galam et al., 2020, 2021]。 Mohamed et al. [2022] 通过提出平均马氏距离 (AMD) 和平均最大特征值 (AMV) 来进一步改进 KDE-NLL，AMD 测量真实值与生成的分布之间的距离，并提出平均最大特征值 (AMV) 来测量预测的置信度。

挑战：真值可能不是最有可能的

概率已知指标假设真值有望以最高概率进行采样。然而，数据集是嘈杂的，预测可能比基于观察到线索的真值更合理，因此不应该受到惩罚。例如，如果智能体在行人数据集中有“之字形”行为，在车辆数据集中有“突然切入”行为，那么这种行为发生的可能性有多大？在这些情况下，我们认为基于下限的指标更合适。

5.3 分布已知指标

上述指标都不会惩罚在真值分布之外的不可接受的预测。主要障碍是只提供了一个真值并且无法估计其分布。为了解决这个问题，ForkingPath 等数据集为每个智能体提供了多个真值轨迹，以便我们可以直接评估预测分布和真值分布的覆盖范围。

基于覆盖率的指标

Amirian et al. [2019]通过在预测样本和真值样本之间使用线性和分配计算 ADE 结果，提出了地面移动距离 (EMD)。Dendorfer et al. [2021] 提出了生成网络的召回率和精度指标来衡量覆盖率。给定预测的和真实的未来轨迹集，recall 计算有多少预测轨迹可以找到位于特定范围 d 内的真值轨迹。

其中 KG 是预测的数量，KR 是智能体 i 的标注真值的数量。换句话说，预测的分布应该覆盖所有真值轨迹。另一方面，精度，在 [Li et al., 2022] 中也称为轨迹使用百分比 (PTU)，计算生成的样本在支持真值分布和惩罚分布外预测的比率：

挑战：繁重的劳动力

显然，分布已知指标需要人类专家对现实世界的数据集进行额外的标注和更正，这是劳动密集型的。此外，即使是人工标注也不能保证覆盖所有模态。虽然合成数据集可以缓解这个问题，但它们只能评估简单且不切实际的交互。因此，大多数基准测试中都没有使用这些指标。

6 总结和未来方向

本文通过框架、数据集和评估指标的分类对 MTP 进行了全面概述，对它们的优点和问题进行了深入的分析和讨论。最后，本文建议未来研究的几个方向如下：

更好的评估指标

评估指标对于指导模型架构和损失函数的设计很重要。不幸的是，当前指标在第 5 节中描述要么忽略不可接受的预测，要么受到数据集和框架的限制。因此，有必要提出更全面的评估指标，这些指标可以正确地表示 MTP 模型的性能，而不受数据集或框架的约束。

使用多模态预测的运动规划

我们相信 MTP 最终将用于下游任务，例如自主系统中的运动规划和控制。规划模型可以根据具有多种模态的轨迹预测提供安全且无碰撞的路线。然而，据我们所知，运动规划和 MTP 目前是独立开发的。为了连接这两个领域，我们首先建议探索可以从多模态预测中受益的 MTP 感知运动规划模型。然后，这些模型的性能可以用作评估指标，并且可以研究具有规划意识的 MTP 模型以帮助运动规划模型取得更好的效果。

语言引导的可解释 MTP

为了构建可信赖且安全的自主系统，必须构建可解释的 MTP 框架，为多模态预测提供人类可理解的决策。目前，大多数 MTP 框架在不解释其决定的情况下提供多个预测 [Kothari et al., 2021]。虽然基于锚点的 MTP 框架通过使用锚点控制每个预测的模态来缓解这个问题，但它们远非可解释的。最近，Xue and Salim [2022]。提出了一种新的基于提示的学习范式 PromptCast，表明人类语言可以作为一种提示，以问答的形式指导时间序列预测。因此，我们建议语言引导的 MTP 框架可以成为可解释 MTP 的合理解决方案。我们相信，语言可以用作提示来指导复杂模态的预测，并为预测的未来轨迹提供人类可读的解释。

轻量级 MTP 框架

预测更长视野的轨迹也是有益的，这需要更大的 K 来覆盖所有模态。此外，YNet [Mangalam et al., 2021] 等一些轨迹预测模型使用卷积解码器生成热图并提出场景兼容预测。然而，如图 3 所示，MTP 框架中的解码器会重复执行，这会导致过多的时间和内存消耗。因此，探索轻量级 MTP 框架可以使实时自主系统受益。

具有分布外 (OOD) 模态的 MTP

当前 MTP 模型的预测会匹配数据集中现有的模态，因此数据集需要涵盖所有类型的模态。预测 OOD 模态具有挑战性，尤其是当数据集有偏差且因此在看不见的环境中不稳健时。提出一个通用框架来解决这个问题将会很有趣。未来的方向可以是构建更全面的数据集或考虑域泛化中 OOD 问题的方法来帮助解决这个问题。

城市范围MTP

当前的 MTP 侧重于未来的短距离运动。然而，我们相信它可以扩展到城市范围内的位置预测：人类移动预测（HMP），它是根据以前的位置和丰富的上下文信息来预测下一个感兴趣的地方（POI），例如，位置的语义。 HMP 自然是多模态的，因为可以接受具有不同不确定性的多个 POI，因此 MTP 的发展也可以应用于它。此外，MobTCast [Xue et al., 2021] 使用 DTP 来增强 HMP 的地理上下文。因此，我们认为 MTP 可以成为考虑未来 POI 不确定性的更强大的辅助任务。