【EAI 010】MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World-Toy模板网

这篇具有很好参考价值的文章主要介绍了【EAI 010】MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

论文标题：MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World
论文作者：Yining Hong, Zishuo Zheng, Peihao Chen, Yian Wang, Junyan Li, Chuang Gan
作者单位：UMass Amherst, UCLA, MIT-IBM Watson AI Lab
论文原文：https://arxiv.org/abs/2401.08577
论文出处：–
论文被引：–（02/02/2024）
项目主页：https://vis-www.cs.umass.edu/multiply/
论文代码： https://github.com/UMass-Foundation-Model

Abstract

人类有能力在积极探索3D世界并与之交互的同时，乘以一系列多感官线索。然而，目前的多模态大型语言模型只能被动地吸收感官数据作为输入，缺乏主动与3D环境中的物体交互并动态收集其多感官信息的能力。为了开创这一领域的研究，我们提出了 MultiPLY 这一多感官具身LLM，它可以将包括视觉，听觉，触觉和热力信息在内的多感官交互数据纳入LLM，从而建立词语，动作和感知之间的关联。为此，我们首先收集了多感官宇宙（Multisensory Universe），这是一个包含 50 万个样本的大规模多感官交互数据集，我们部署了一个由 LLM 驱动的具身Agent，让其与3D环境交互。为了在这些生成的数据上使用预训练的 LLM 执行指令调优，我们首先将3D场景编码为抽象的以物体为中心的（object-centric）表示，然后引入行动标记（action tokens），表示具身Agent在环境中采取的某些行动，以及表示Agent在每个时间步的多感官状态观察的状态标记（state tokens）。在推理过程中，MultiPLY 可以生成行动标记，指示Agent在环境中采取行动，并获得下一个多感官状态观测值。然后，观察结果会通过状态标记追加回 LLM，生成后续文本或动作标记。我们证明，在物体检索，工具使用，多感官描述和任务分解的一系列具身任务中，MultiPLY 的性能远远优于基线。

1. Introduction

a multisensory object-centric embodied large language model in 3d world,具身智能（Embodied AI）,人工智能,具身智能,机器人,LLM,3d,GPT-4

人类居住在一个非同寻常的多感官世界——在这个世界中，我们不断探索3D环境并与之交互，收集并分析各种感官数据，以完成各种任务[56]。想象一下自己置身于如图 1 所示的具身环境中。为了回答 “甜甜圈可以吃了吗” 这个问题，首先会听到微波炉发出嘟嘟声。随后，查看甜甜圈是否在微波炉里。当找到甜甜圈后，可能会触摸它，感觉到它的硬度和冷度，从而得出甜甜圈还没准备好的结论。

现有的多模态大型语言模型（如 LLaVA [39]，Flamingo [1]，BLIP-2 [37]，PaLM-E [12]）在众多视觉语言任务中表现出色。然而，它们主要侧重于2D场景理解，在3D环境的推理和交互方面的能力捉襟见肘。3D-LLM [32]等最新研究成果已初步将整体3D点云作为输入进行编码，并在3D推理任务中取得了令人瞩目的成果，但却存在训练成本高，物体推理效率低等问题。更重要的是，这些模型无法捕捉视觉和语言之外的多感官信息。

人们已经努力将不同模态的表征结合起来[28]，并将它们调整到预先训练好的 LLM 上[31, 40]。然而，它们通常只关注单个物体[30]或2D图像[28]，无法对大型3D环境进行编码，也无法与3D具身环境进行交互。例如，要解决图 1 所示的问题，人类需要触摸甜甜圈来感知其柔软度和温度，这远远超出了多模态 LLM 目前的能力范围。

展望未来，建立具身多感官大型语言模型不可避免地会遇到各种挑战。

1）用于训练这种大型语言模型的多感官交互数据太少。
2）如何适当地表示3D场景和物体的多感官信息。人类可以通过将场景抽象为以物体为中心的表征来保持对场景的粗略印象，并在与物体进一步交互时关注物体的细节。因此，LLM 也必须能够在以物体为中心的抽象表征和物体的详细多感官信息之间灵活切换。
3）现有的 LLM 并不适合使用交互数据进行指令调优。它们通常将被动数据作为输入，并生成单步输出，无法将文字，动作和感知联系起来，从而参与到具身环境中。

为此，我们提出了 MultiPLY，这是一种多感官具身 LLM，可以通过部署一个 LLM 驱动的Agent来参与3D环境，从而编码以物体为中心的多感官表征，包括视觉，听觉，触觉和热力信息。我们首先收集了 Multisensory Universe，这是一个大规模的多感官数据集，由一个与3D具身环境交互的Agent收集的 500k 数据组成。

使用 Habitat-Matterport 3D (HM3D) 数据集[46]中的3D环境，并通过从 ObjectFolder [20] 和 Objaverse [11] 中添加具有丰富感官数据的交互物体来丰富环境。
使用 ChatGPT 创建多感官描述，QA，对话，操作，任务分解等任务的输入和输出数据。
具身Agent会探索环境并与环境中的物体交互，从而获得这些任务的多感官观察结果。

为了对这些生成的数据进行指令调优，我们首先将3D场景编码为以物体为中心的抽象表示法，告知 LLM 场景中有哪些物体。

我们进一步设计了一组额外的动作标记，如 NAVIGATE，OBSERVE（用于获取物体点云），TOUCH（用于获取触觉和热力信息），HIT（用于获取撞击声），以表示Agent采取行动探索环境并与物体交互。
通过与物体交互，更详细的多感官信息可以作为行动的结果被揭示出来，并通过一组状态标记进行编码。所有感官观察结果都由不同的 sensor encoders 编码，并通过 sensor-to-image adapters 连接到 LLM。

在推理过程中，MultiPLY 可以通过 LLM 生成一系列行动标记，指示Agent采取行动，并接收行动结果作为下一状态的多感官观察结果。然后，观察结果被附加回 LLM，并由一组状态标记括起来，从而促进下一步的生成。MultiPLY 在 Multisensory Universe 上经过训练后，在物体检索，工具使用，多模态描述和任务分解等方面的表现远远优于基线模型。

总之，本文的贡献在于：

大规模多感官数据集 Multisensory Universe，由一个与3D虚拟环境的Agent收集的 500k 个数据组成，涵盖了多感官描述，QA，对话，操作，任务分解等多种任务。
多感官具身 LLM——MultiPLY，它可以用一组动作标记和状态标记来编码以多感官物体为中心的表征，以便对预训练 LLM 进行端到端指令调优。
在物体检索，工具使用，多感官描述和任务分解方面的实验结果表明，MultiPLY 的性能远远优于基线。

2. Related Works

Multisensory Learning

多感官学习旨在利用来自不同传感器（包括摄像头，麦克风，触觉传感器等）的信息进行学习。对于视觉-听觉学习，在现实世界中收集视觉-听觉对的数据集[10, 43]或在模拟器中渲染声音[6, 8, 17]促进了这一研究领域的发展。早期的研究试图将视听信息结合起来，用于视听事件定位[27, 57, 60, 61]，视觉框架中的声源定位[14, 16, 19, 66, 67]，视觉引导的声音编辑[7, 18, 25]和视觉对齐的声音生成[9, 15, 44, 50]。至于视觉触觉学习，许多研究都集中在建立逼真的触觉模拟系统[41, 58]或收集真实物体的触觉数据[23, 24]。利用这些触觉数据，研究人员将视觉和触觉数据结合起来，用于跨模态检索[3, 21]，机器人操作[4, 5, 36]和3D重建[48, 49, 52]。与前人的研究不同，MultiPLY 旨在将视觉，音频，触觉和热力信息结合在一个交互式3D环境中，以完成各种具身任务。

Multi-modal Large Language Models LLMs

LLM [42, 53, 55, 65]在众多领域都表现出了卓越的能力。

[1, 37, 39]试图利用大规模图像-文本对数据赋予 LLMs 视觉理解能力，并将训练好的模型应用于视觉QA，图像描述和多模态对话等下游任务。
[32, 51, 62, 64]还致力于将3D视觉信息纳入 LLM，以增强空间推理能力。
除了将视觉信息纳入 LLM 之外，[30, 31]还试图让 LLM 理解多模态信息。
AnyMAL[40]提出了一种统一的模型，可将文本，图像，视频，音频和IMU运动读取等多模态信息整合在一起。

不过，这些工作处理的是被动信息，而不是与环境的主动交互。相比之下，本文重点是一个具身大语言模型，它可以通过在环境中导航，触摸物体以获取触觉和热力信息，撞击物体以获取撞击声等方式与多模态3D世界进行主动交互。

3. The Multisensory-Universe Dataset

a multisensory object-centric embodied large language model in 3d world,具身智能（Embodied AI）,人工智能,具身智能,机器人,LLM,3d,GPT-4

本节说明了收集多传感器宇宙数据集的过程。如图 2 所示，

第 3.1 节解释了如何将交互式物体输入场景，从而为数据集构建以物体为中心的3D场景。
第 3.2 节概述了从这些物体中获取传感器数据的方法。
第 3.3 节介绍了如何部署一个可提出任务并探索环境以解决任务的Agent。由此产生的交互数据将作为配对交互语言数据收集起来，作为 LLM 的训练输入。

3.1. Inputting Interactive Objects into 3D Scenes

我们在 Habitat-Matterport 3D (HM3D) semantics dataset [46, 63]的基础上构建场景，该数据集包含 216 个 3D 空间和 3100 个房间。然而，HM3D 场景中的现有物体由于传感器数据不足且多样性有限，在 Habitat-sim 中无法进行交互[47]。因此，我们建议在场景中添加新的交互式物体，让Agent可以使用 Habitat-sim 与之交互。我们添加到场景中的物体有两个来源：

1）ObjectFolder [20, 22]，其中包含 1k 个物体网格，这些物体的撞击声存储在隐式神经场中，并标注了物体材料。
2）Objaverse [11]是一个包含 80 万个3D物体的宇宙，涵盖了丰富的类别。我们选择了可能出现在室内场景中的物体。

我们要求 ChatGPT [42] 从 ObjectFolder 和 Objaverse 中选择 1-10 个新物体，并为这些新添加的物体生成适当的边界框。ChatGPT 还需要指定物体的材料类别（如陶瓷，塑料，钢）和属性（如变形，弹性硬度），以及温度标签（如物体是热的，冷的还是与室温相同）。我们对 GPT 的提示包含 HM3D 场景中现有的所有物体及其边界框，以及若干偏好：

1）选择一些相似的物体。例如，选择两个外观相似的瓶子，并指定其中一个为塑料瓶，另一个为钢瓶。这样，就需要收集来自不同传感器的信息来解决模糊问题。
2）选择与环境相匹配的物体，并将它们结合起来，共同完成有趣的任务。例如，在厨房环境中，可以放置烹饪用的食材和工具。我们还为 GPT 提供了一些提示示例。

3.2. Object Sensor Data Acquisition

我们将说明如何收集新增物体的传感器数据。

Tactile：我们使用 DiffTactile [2]，它利用 MLS-MPM [33]来模拟刚性，弹性和弹塑性物体。我们将添加物体的网格放入 DiffTactile，它使用带有多个位置标记的气泡抓手在预定位置触摸物体。触觉读数是标记的初始和最终位置，代表气泡的变形程度。

Ambient Sound：每个物体都可以发出环境声音，以方便导航或推理，或者作为提示，告知Agent环境中发生了什么。我们会提示 ChatGPT 将 AudioSet [26] 中的声音与添加物体的语义标签进行匹配。根据 AudioSet 的描述，ChatGPT 需要在候选列表中选择可以发出这种声音的物体。

Impact Sound：撞击声代表我们敲击或撞击物体时听到的声音，对于识别物体的材料至关重要。我们通过查询 ObjectFolder 物体的隐含声音字段（给定撞击位置和力度）来获取物体的撞击声。

Temperature：有了物体的温度标签，我们就会向 ChatGPT 询问每个物体的适当温度。

3.3. Embodied Agents for Data Collection

受文献 RobotGen[59] 的启发，我们利用 LLM 驱动的具身智能体（embodied agents）来收集所构建场景中的数据。我们首先提示 ChatGPT 提出任务。然后，我们放置一个具身智能体与3D环境中的物体进行交互，以执行任务并收集交互数据。

Generating Task Proposals

我们遵循文献 3D-LLM[32]中提出的基于方框演示指令的提示方法，提示 ChatGPT 生成任务。除了物体的边界框，我们还输入了所有物体的材料，变形性和硬度，以及温度标签。ChatGPT 会收到一份需要在环境中执行的操作列表。然后，它会生成需要与物体交互的特定任务，代表 pseudo ground-truth 动作的单词序列，以及从物体的 ground-truth 反馈标签推导出的语言推理输出（注意，ChatGPT 可以访问所有材料和温度标签，因此它可以在 “触摸” 动作后生成类似 “感觉很冷” 的句子）。我们涵盖了一系列不同的任务，包括多感官描述，QA，具身对话，导航，物体操作，工具使用，重新排列，任务分解等。我们将所有提示附在补充材料中。

Interaction Data Collection

虚拟Agent首先随机探索环境，收集初始 RGBD 环境数据。给定动作后，Agent执行动作与环境中的物体交互，并获得感官反馈。例如，当动作为 “触摸物体” 时，Agent会返回物体的触觉和温度读数。我们存储所有动作的交互结果。如图 2 所示，我们可以从一次交互中逐步构建多个输入输出数据，表示不同步骤的交互。

4. MultiPLY

在本节中，我们将介绍 MultiPLY 框架。如图 3 所示，我们首先将场景编码为以物体为中心的抽象表示，而物体的多感官细节只有在Agent执行动作并与之交互时才会展现出来。我们设计了一组动作标记，表示Agent与环境交互的动作。交互结果通过状态标记被附加回 LLM，以生成后续文本或动作标记。
a multisensory object-centric embodied large language model in 3d world,具身智能（Embodied AI）,人工智能,具身智能,机器人,LLM,3d,GPT-4

4.1. Object-Centric Scene Representations

我们的模型首先将Agent探索的3D环境特征作为输入，以形成对场景外观的初步印象。我们沿用 3D-LLM 的方法，利用2D特征来构建3D场景特征，这样就可以将视觉特征无缝地输入到预先训练好的视觉语言模型中，而无需进行微调。然而，3D-LLM 的点云编码使得 LLM 难以同时处理数千个点。另外，人类在探索3D环境时，会对场景进行抽象，大致形成物体及其位置的概念，而不会记住所有细节。同样，我们建议以抽象化的物体为中心来表示环境。我们使用Concept Graphs [29] 和 CLIP [45] 编码器，首先对观察到的图像中的物体进行编码，然后通过多视角关联将图像中的输出融合到3D环境中。我们还为物体的视觉特征添加了位置嵌入。我们最终得到 O × 1024 个特征作为以物体为中心的抽象场景表示，其中 O 是物体的数量。如果3D环境中的某个物体发出了环境声音，我们就会使用 CLAP [13] 音频编码器对声音进行编码，得到一个 1024 维的特征。以物体为中心的场景表示法和环境声音表示法是 LLM 的初始输入，由 , 和 , </AMBIENT SOUND> 标记括起来。

4.2. Action Tokens

我们设计了一组动作标记（action tokens），用于表示Agent与环境的交互，具体如下：

<SELECT> 标记选择一个要与之交互的物体。物体的选择取决于语言特征（即 SELECT 标记的 LLM 的最后一个隐藏状态）和环境中物体的 CLIP 视觉特征之间的注意力。它会选择注意力得分最高的物体。
<NAVIGATE> 标记要求Agent导航到所选物体。请注意，导航操作可由任何预定义的寻路模块执行，而不是本文的研究重点。
<OBSERVE> 标记要求Agent仔细检查所选物体，并获取物体的详细信息（以物体的详细点云形式）。
<TOUCH> 标记允许Agent触摸所选物体，以获取触觉和温度信息。
<HIT> 标记允许特工撞击所选物体，以获得撞击声。
<PICK-UP>，<PUT-DOWN> 标记可让Agent拾起或放下所选物品。
<LOOK-AROUND> 标记允许Agent旋转头部，获取附近的物体。

4.3. State Tokens

我们设计了另一组状态标记，将交互结果反馈给 LLM。

<OOBJECT> 编码了当Agent到一个物体时获得的物体点。具体来说，我们从2D CLIP 特征[32]中获取3D特征，并将位置嵌入添加到3D特征中。我们建立了 N × 1024 个物体点云特征，其中 N 为点的数量。

<IMPACT SOUND> 对Agent物体时获得的撞击声进行编码。我们使用 CLAP 音频编码器对声音进行编码，得到 1024 维的撞击声表示。由于 CLAP 特征与 LLM 不一致，我们使用声音投影仪（一个线性层）将其映射到 LLM 的特征空间。

<TACTILE> 对Agent物体时获得的触觉信息进行编码。我们将触觉读数转换为热图，并使用 CLIP 对热图进行编码。我们对patch进行均值池化处理，得到 1024 维温度特征。我们使用触觉投影（一个线性层）映射到 LLM 的特征空间。

<TEMPERATURE> 对获得的温度进行编码。我们将温度读数转换为热图，并使用 CLIP 对热图进行编码。我们对贴片进行均值池处理，得到 1024 维温度特征。我们使用温度投影器（一个线性层）映射到 LLM 的特征空间。

4.4. Training & Inference

Model Architecture

我们使用 LLaVA [38] 作为骨干多模态大语言模型。由于我们使用 ConceptGraphs [29] 将视觉特征与 LLaVA 的嵌入空间对齐，因此我们可以直接使用 LLaVA 的视觉到语言投影器，而无需对视觉语言数据进行预训练。对于其他传感器模态，我们利用轻量级适配器，即单层线性投影器，将传感器特征投射到 LLaVA 的文本标记嵌入空间中。

Modality Alignment

如上所述，触觉，声音和温度表征与语言特征并不一致。在第一阶段，我们对传感器-语言适配器进行多感官特征对齐训练。在音频-语言对齐方面，我们使用 AudioSet [26] 和 AudioCaps [34]。对于冲击声，触觉和热数据，我们使用 ChatGPT 生成单句标题，描述材料以及每种传感器模态和语言之间的配准。我们冻结了图像编码器和 LLM 的权重，以加快收敛速度并保持语言推理能力。

Instruction tuning with Multisensory Universe

在第二阶段，我们利用多感官数据集调整 LLaVA。我们的训练损失由两部分组成。第一部分是 LLM 损失，与原始 LLaVA 模型相同。我们还增加了一个损失，迫使模型选择正确的关注物体。具体来说，我们计算 SELECT 标记的 LLM 最后一个隐藏状态与每个抽象物体特征之间的关注度。特征会经过一个 Sigmoid 层，并通过二元交叉熵（BCE）损失进行优化。在这一阶段的训练中，我们解冻了整个模型。我们在 128 V100 GPUS 上使用 FSDP 进行高效训练。

Inference

在推理时，我们的 MultiPLY 首先将任务提示和抽象场景表示作为输入，然后生成后续标记。一旦生成了行动标记，就会在 Habitat-sim [47] 中指示实体Agent采取该行动，并与环境交互。Agent的观察结果通过状态标记作为输入发送回 LLM。LLM 根据当前状态输入进一步生成下一个标记。

5. Experiments

在对收集到的多感官宇宙（Multisensory Universe）进行训练后，我们在模拟器中进行了评估。然后，LLM 等待Agent完成动作，并通过状态标记发回观察结果，生成下一个标记。我们提供了四种实验设置：物体检索，工具使用，多感官描述和任务分解，并为每项任务提供了详细的任务描述，基线和分析。我们确保评估设置中不出现多感官宇宙中的场景和物体。由于篇幅有限，我们在附录中附上了更多的消融研究，我们试验了来自不同模态的感官输入的每种可能组合，以及与环境的交互或不交互。

5.1. Object Retrieval

Task Decription

我们设计的物体检索任务中，3D场景中存在多个类似物体，Agent需要使用多个传感器数据来检索正确的物体。例如，任务输入可以是 “检索装有热水的软纸杯”，同时可能存在 “装有热水的硬纸杯”，“装有热水的软纸杯”，“装有热水的软塑料碗” 或 “装有热水的软纸碗” 等干扰物体。场景设置不同于多感官宇宙，因为我们放置了更多分散注意力的物体供检索（而在多感官宇宙中，大多数场景都有两个相似的物体），而且我们包含了与多感官宇宙物体不同的传感器属性组合。例如，在训练集中，我们看到了一个陶瓷杯和一个纸碗，而在评估中，我们查询的是一个纸杯。

Baselines

我们将一组跨模态检索模型作为基线，这些模型返回对齐的传感器嵌入之间的相似性。这些模型可分为：

1）单传感器语言模型，如 CLIP 和 CLAP。
2）2D多感官模型，如 ImageBind [28]，其中其他模态的嵌入已被映射为与2D图像相同的嵌入。
3）3D多感官模型，将物体点云的嵌入映射到其他模态，如 PointBind [30]。

我们首先探索环境，然后使用 Concept Graphs 将场景表示为一组物体特征，如 MultiPLY，其中物体特征是这些检索模型的视觉嵌入。可以通过计算物体嵌入和语言嵌入之间的相似度来实现选择操作，得分最高的物体将被检索出来。由于这些模型无法与环境交互以获取触觉，撞击声和温度数据，因此我们对基线进行了三种设置：

1）无交互，检索得分最高的物体。(对于 CLAP，我们假定已获得所有物体的撞击声）
2）使用 Oracle 交互操作与环境交互。即首先通过视觉语言相似性检索感兴趣的物体，然后手动控制Agent与物体交互，以获取撞击声，触觉和温度信息。对所有传感器的嵌入进行平均并计算与语言查询的相似度，然后检索得分最高的物体。由于动作标记是预先定义的，而不是生成的，因此这种 Oracle 设置更容易与 MultiPLY 竞争。
3）使用为多模态对齐和检索量身定制的多感官宇宙改进版进行微调。首先将 Multisensory Universe 中物体的传感器数据与视觉模态对齐（就像 ImageBind 和 PointBind 一样），然后再将其与 Multisensory Universe 中经过修改的语言数据进一步对齐。

对于基于 LLM 的方法，我们包括 Pointbind-LLM，它使用 pointbind 表示法，并通过 LLaMA 执行指令调优[54]。我们还尝试了 MultiPLY-2D，这是我们模型的2D变体，我们用2D单视角特征取代了3D特征。

Analysis

a multisensory object-centric embodied large language model in 3d world,具身智能（Embodied AI）,人工智能,具身智能,机器人,LLM,3d,GPT-4

表 1 显示了物体检索结果。我们可以得出几个结论。

首先，采用多种感官输入的模型远远优于处理单一模态输入的模型。CLIP，CLAP 以及使用初始视觉嵌入的模型在物体检索中得分很低，这强调了整合多感官数据进行推理的重要性。
其次，基于 3D 的模型超过了 2D 模型，这主要是因为单视角图像有时会因视角不一致和遮挡而无法提供足够的信息来推理物体。
第三，LLM 优于基于相似性的检索模型。原因可能是检索模型将多感官嵌入融合为一个整体，而不是将表征拆分开来，或逐步与不同的传感器进行交互。

总的来说，我们的 MultiPLY 比基线模型要好得多。这可能是因为基于绑定的方法有一个弱点，那就是它们将所有东西都绑定到了视觉模态上，而一个视觉属性可以映射到另一种模态的多个属性上（例如，从杯子的外观上，我们无法判断它是由陶瓷还是塑料制成的，也就无法与不同的撞击声进行对齐）。我们的 MultiPLY 可通过与不同传感器数据的交互和单独推理来解决模糊问题。

5.2. Tool Use

Task Description

在具身环境中，多感官数据对于找到解决问题的适当工具至关重要。例如，当我们受伤时，我们需要根据受伤部位和受伤时间来寻找热敷或冰袋。如果没有常用工具，我们也可以找到替代工具。例如，我们可以用钢勺子代替开罐器，但不能用塑料勺子。与物品检索任务类似，我们在环境中放置一些不同类别的物品，以及相同类别但具有不同材料/触觉/热力信息的物品。我们用一句话来描述当前的情况和要完成的目标，并要求Agent检索出正确的工具来处理这种情况。

Baselines

我们在工具检索中使用了与物体检索实验相同的基线。对于基于 LLM 的方法，我们在选择工具时也需要给出理由。

Analysis

a multisensory object-centric embodied large language model in 3d world,具身智能（Embodied AI）,人工智能,具身智能,机器人,LLM,3d,GPT-4

表 2 显示了工具使用的结果。我们可以看到，基于绑定的方法在工具使用方面表现很差。这可能是因为它们将物体的感官数据视为一个整体，无法将材料等单个感官信息从表征中分离出来，更不用说推理如何将这一属性用作工具，以及如何分析和推断物体在整合多感官信息后的功能。

5.3. Multisensory Captioning

Task Description

与传统的单一模态描述任务不同，多感官描述要求模型从所有感官来描述物体。通过提供有关物体或物体发出的环境声音的语义信息，Agent必须首先导航到物体，与之交互并对其进行描述。

Baselines

在基线模型中，我们包括 LLaVA，它将整体场景图像作为输入，并生成有关查询物体的标题。3D-LLM 将场景点云作为输入，并使用密集描述来描述物体。这两种方法都只使用视觉信息。PointBind-LLM 首先通过模态对齐检索物体，然后与物体交互并整合多感官信息来描述查询物体。

Analysis

a multisensory object-centric embodied large language model in 3d world,具身智能（Embodied AI）,人工智能,具身智能,机器人,LLM,3d,GPT-4

表 3 显示了结果。从表中可以看出，基于 3D 的 LLM 总体上优于 2D VLM。

LLaVA 和 3D-LLM 将整体表征作为输入，因此无法与可与模型交互以在表征之间切换的模型竞争。MultiPLY 优于 Pointbind-LLM，可能是因为 PointBind 绑定了不同模态的表征，使得感官难以分离。

5.4. Task Decomposition

Task Definition

任务分解侧重于将高级任务分解为较小的行动。在我们的环境中，我们专注于检索不同的东西来为任务做准备。例如，为了准备晚餐，我们需要首先检测厨房中的食物，并测量其温度。如果食物是冷的，我们就需要用微波炉加热，因此我们还需要找一个微波炉安全的陶瓷或玻璃容器。我们还需要准备适当材料的餐具。在我们的设置中，我们在环境中放置了几种可能的选择组合，我们还放置了从多感官宇宙中看不到的物体组合。只要Agent检索到其中一个正确的组合，任务就算成功。

Baselines

我们将 LLaVA 纳入其中，它是我们模型的最小2D图像版本。我们输出场景图像，并要求模型将任务分解为动作。由于 3D-LLM 能够进行任务分解，因此我们也使用了它。在最初的论文中，我们将整个点云作为输入并生成低级动作。请注意，3D-LLM 所训练的任务分解数据与我们的设置之间存在领域差距，这导致 3D-LLM 在不进行微调的情况下成功率几乎为零。因此，我们将所有模型作为基线进行微调。对于每个基线，我们有两种变体：

1）wo Interaction：一次性生成所有动作，并在环境中按顺序执行；
2）w Interaction：一次生成一个动作，接受动作反馈并生成下一个动作。

Analysis

a multisensory object-centric embodied large language model in 3d world,具身智能（Embodied AI）,人工智能,具身智能,机器人,LLM,3d,GPT-4

表 4 显示了任务分解结果。从表中我们可以看出，没有交互的模型结果很差，这可能是因为视觉语言模型在很大程度上会产生幻觉。例如，当场景中没有面包时，模型会生成 “取回面包”。MultiPLY 在很大程度上优于基线模型。原因之一可能是 MultiPLY 利用了多感官信息，而其他两个模型则利用了视觉信息。另一个原因可能是基线模型将整个场景作为输入，因此无法关注场景中的细微物体。

5.5. Qualitative Examples

a multisensory object-centric embodied large language model in 3d world,具身智能（Embodied AI）,人工智能,具身智能,机器人,LLM,3d,GPT-4

定性示例如图 4 所示，展示了 MultiPLY 在与具身环境中的物体交互和收集多感官信息方面的强大功能。更多示例可参见补充材料。

6. Conclusion

本文提出的 MultiPLY 是一种多感官 LLM，可将多感官交互数据纳入大型语言模型。我们介绍了 Multisensory Universe，这是一个由 500k 多感官数据组成的数据集，这些数据是由一个积极探索并与环境交互的Agent收集的。我们模型的一个局限是，目前 MultiPLY 不涉及详细的导航和控制策略，而是利用预定义策略来执行操作。我们认为这些方面与我们的研究无关，可以在未来进行探索并无缝集成到我们的框架中。

A. Dataset

A.1. More details on Scene Construction

图 5 展示了我们如何在 HM3D 场景中添加新物体。具体来说，我们要求 ChatGPT 生成以下内容：

1）物体边界框；
2）物体材料和材料属性；
3）温度。

a multisensory object-centric embodied large language model in 3d world,具身智能（Embodied AI）,人工智能,具身智能,机器人,LLM,3d,GPT-4

A.2. More details on Sensor Data Acquisition

在本节中，我们将详细介绍如何详细获取物体的传感器数据。

A.2.1 Tactile

DiffTactile [2] 要求我们为不同物体的触觉模拟提供一组参数。除了告诉模型我们输入的是刚性物体，弹性物体还是弹塑性物体外，我们还需要指定杨氏模量，泊松比，屈服强度等参数。

与本文一样，当 ChatGPT 将物体添加到场景中时，它也会指定物体的类型（如刚性，弹性，塑性）以及每个物体的柔软度/变形性（在语言描述中）。为了获取 DiffTactile 所需的参数，我们向 ChatGPT 提示了类型和柔软度/变形性描述，以及每个参数的详细定义，并提供了几个简单示例的可能参数值。要求 ChatGPT 返回给定物体的详细参数组合。例如，软面包的杨氏模量较小，而硬面包的杨氏模量较大。我们在图 6 中添加了获取参数的提示。

a multisensory object-centric embodied large language model in 3d world,具身智能（Embodied AI）,人工智能,具身智能,机器人,LLM,3d,GPT-4

我们将物体输入 DiffTactile，并根据物体对抓手的形状进行归一化处理。我们记录抓手中标记的2D初始位置和最终位置。我们将触觉读数转化为2D图像，方法是从初始位置到最终位置画一条箭头线。图 7 展示了一些触觉图像示例。我们对每个物体的 16 个触摸位置进行了采样。在训练和评估中，我们随机返回一个物体的图像。

a multisensory object-centric embodied large language model in 3d world,具身智能（Embodied AI）,人工智能,具身智能,机器人,LLM,3d,GPT-4

A.2.2 Impact Sound

ObjectFolder [20] 将多模态信息全部存储在隐式字段中。也就是说，只要在物体的声音隐含字段中输入一个撞击位置，我们就能得到在特定位置撞击物体时发出的撞击声。对于每个物体，我们在网格点中随机抽取 10 个位置来获取撞击声。在训练和评估中，我们随机返回一个物体的撞击声。

A.2.3 Ambient Sound

AudioSet 与表示环境声音的物体配对。AudioSet 本体采用层次结构。从根节点到叶节点，描述粒度越来越细（例如，音乐–乐器–键盘–钢琴–电子琴）。每个本体条目都附有描述（如 “玻璃：与非结晶无定形固体相关的声音，通常是透明的，具有广泛的实用，技术和装饰用途”）。每个音频都标有从子节点到根节点的多个本体条目（例如，钢琴声将标有 “Piano”，“Keyboard”，“Musical Instrument” 和 “Music”，但没有 “Electric piano”，因为这架钢琴不是电动的）。我们提示 ChatGPT 将每个本体条目与物体类别进行匹配（图 8）。

a multisensory object-centric embodied large language model in 3d world,具身智能（Embodied AI）,人工智能,具身智能,机器人,LLM,3d,GPT-4

A.2.4 Temperature

我们在图 9 中添加了获取温度的提示。

a multisensory object-centric embodied large language model in 3d world,具身智能（Embodied AI）,人工智能,具身智能,机器人,LLM,3d,GPT-4

A.3. More details on Task Construction

在图 10 中，我们展示了为多传感器宇宙生成语言任务数据的提示。具体来说，操作可以语言形式返回预期观察结果（例如，触摸物体时的触觉图）。我们将其插入状态标记作为占位符，当Agent在空间中执行操作并获得观察结果后，我们再将观察结果添加回状态标记。

a multisensory object-centric embodied large language model in 3d world,具身智能（Embodied AI）,人工智能,具身智能,机器人,LLM,3d,GPT-4

B. Experiments

B.1. Experimental Details

我们根据 LLaVA 模型的 llava-v1.5-7b 检查点来微调模型。我们使用学习率为 1e-6 的 Adam 优化器。我们在 4*132 个 V100 上训练模型。我们使用的批次大小为 2112。多模态适配器的训练需要 2 个小时，而整个微调过程只需要不到 1 天的时间。

我们使用原始 LLaVA 的mm投影将场景表示和物体点云适配到 LLM。声音，触觉和温度适配器都是一个线性层，输入大小为 1024，输出大小为 1024。

我们使用 LLaVA 默认的 CLIP 视觉编码器对所有物体，点云，触觉和温度图像进行编码。具体来说，对于物体，我们使用 segment anything [35] 从2D物体中提取物体，屏蔽其他物体和背景，并将图像裁剪为物体的大小，然后使用 CLIP 编码器对物体进行编码。我们按照 ConceptGraph [29] 的方法将物体从2D合并到3D。在构建场景时，每个物体都有一个 CLIP 特征。对于物体细节（点云），我们将物体的2D像素投影到3D，并得到物体的点云。

B.2. Ablative Studies

在表 5 中，我们还展示了其他实验结果，这些结果是我们用单模，双模或三模对 MultiPLY 进行探索的结果。

a multisensory object-centric embodied large language model in 3d world,具身智能（Embodied AI）,人工智能,具身智能,机器人,LLM,3d,GPT-4

B.3. More Qualitative Examples

a multisensory object-centric embodied large language model in 3d world,具身智能（Embodied AI）,人工智能,具身智能,机器人,LLM,3d,GPT-4 文章来源地址https://www.toymoban.com/news/detail-835830.html

到了这里，关于【EAI 010】MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

【EAI 010】MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World

Abstract

1. Introduction

2. Related Works

Multisensory Learning

Multi-modal Large Language Models LLMs

3. The Multisensory-Universe Dataset

3.1. Inputting Interactive Objects into 3D Scenes

3.2. Object Sensor Data Acquisition

3.3. Embodied Agents for Data Collection

Generating Task Proposals

Interaction Data Collection

4. MultiPLY

4.1. Object-Centric Scene Representations

4.2. Action Tokens

4.3. State Tokens

4.4. Training & Inference

Model Architecture

Modality Alignment

Instruction tuning with Multisensory Universe

Inference

5. Experiments

5.1. Object Retrieval

5.2. Tool Use

Task Description

Baselines

Analysis

5.3. Multisensory Captioning

5.4. Task Decomposition

5.5. Qualitative Examples

6. Conclusion

A. Dataset

A.1. More details on Scene Construction

A.2. More details on Sensor Data Acquisition

A.2.1 Tactile

A.2.2 Impact Sound

A.2.3 Ambient Sound

A.2.4 Temperature

A.3. More details on Task Construction

B. Experiments

B.1. Experimental Details

B.2. Ablative Studies

B.3. More Qualitative Examples

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2