文献学习-22-Surgical-VQLA:具有门控视觉语言嵌入的转换器,用于机器人手术中的视觉问题本地化回答

这篇具有很好参考价值的文章主要介绍了文献学习-22-Surgical-VQLA:具有门控视觉语言嵌入的转换器,用于机器人手术中的视觉问题本地化回答。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

文献学习-22-Surgical-VQLA:具有门控视觉语言嵌入的转换器,用于机器人手术中的视觉问题本地化回答,文献学习,医疗机器人,机器人,科技,大模型,gpt,多模态,智能传感与交互

Authors: Long Bai1† , Mobarakol Islam2† , Lalithkumar Seenivasan3 and Hongliang Ren1,3,4∗ , Senior Member, IEEE

Source: 2023 IEEE International Conference on Robotics and Automation (ICRA 2023) May 29 - June 2, 2023. London, UK

Abstract:

尽管有计算机辅助模拟器和录制的外科手术视频,但初级住院医师仍然严重依赖专家来回答他们的问题。然而,专家外科医生往往因临床和学术工作量而超负荷工作,并限制了他们回答问题的时间。为此,开发了一种手术问答系统,以促进机器人辅助手术场景和活动从录制的视频中理解。大多数现有的视觉问答 (VQA) 方法都需要对象检测器和基于区域的特征提取器来提取视觉特征,并将它们与问题的嵌入文本融合以生成答案。然而,(i)由于数据集较小且缺乏边界框注释,手术对象检测模型稀缺;(ii)目前文本和图像等异构模态的融合策略是幼稚的;(iii) 缺少局部应答,这在复杂的手术场景中至关重要。

在本文中,提出了机器人手术中的视觉问题定位-回答(Surgical-VQLA)来定位答案预测过程中的特定手术区域。为了处理异构模态的融合,设计了门控视觉语言嵌入(GVLE)来为语言视觉转换器(LViT)构建输入补丁来预测答案。为了获得定位,将检测头与LViT的预测头并行添加。还集成了广义交集并集 (GIoU) 损失,通过保持问答模型的准确性来提高定位性能。利用来自 EndoVis-17 和 18 的 MICCAI 挑战的公开可用的手术视频对 VQLA 的两个数据集进行注释。验证结果表明,Surgical-VQLA可以更好地理解手术场景,并定位与问答相关的特定区域。GVLE通过展示优于现有基准的性能,提出了一种有效的语言视觉嵌入技术。

主要贡献和优势是:

– 设计并提出了一个外科视觉问题局部化回答 (Surgical-VQLA1) 模型,该模型可以根据给定的输入问题和手术场景预测局部答案。

– 使用新颖的 GVLE 技术为 VQLA 任务提出一种无需检测的 GVLE-LViT 模型,该模型可有效融合异构特征(视觉和文本)。

– 将GIoU损失与交叉熵损失和L1损失相结合,以提高VQLA模型的预测和定位性能。

– 通过广泛的验证,发现 (i) 即使答案与手术相互作用有关,SurgicalVQLA 也可以定位上下文。(ii) 无探测器VQLA通过避免计算昂贵且容易出现错误的检测模块,展示了更好的特征学习,并促进了外科问题本地化回答系统的端到端实时应用。(iii) 拟议的GVLE有效地融合了视觉和文字嵌入的异构模式,并优于现有方法。

文献学习-22-Surgical-VQLA:具有门控视觉语言嵌入的转换器,用于机器人手术中的视觉问题本地化回答,文献学习,医疗机器人,机器人,科技,大模型,gpt,多模态,智能传感与交互

图 1.针对传统 VQA 任务,提出的 VQLA pipline概述。方法不需要对象建议,边界框预测可以与分类结果一起输出。

文献学习-22-Surgical-VQLA:具有门控视觉语言嵌入的转换器,用于机器人手术中的视觉问题本地化回答,文献学习,医疗机器人,机器人,科技,大模型,gpt,多模态,智能传感与交互

图 2.提出的网络架构。机器人手术图像为预训练的特征提取器提供信息,问题为定制的分词器提供信息。然后,GVLE模块嵌入输入特征,并优化视觉和文字嵌入的组合。融合特征通过预训练的 ViT 模块传播。最后,由带有softmax的分类头和带有FFN的定位头给出答案和边界框预测。

表一 GVLE-LVIT模型与基于VISUALBERT 和VISUALBERT RESMLP 的模型的比较实验。RN 表示 RESNET。

文献学习-22-Surgical-VQLA:具有门控视觉语言嵌入的转换器,用于机器人手术中的视觉问题本地化回答,文献学习,医疗机器人,机器人,科技,大模型,gpt,多模态,智能传感与交互

图 3.通过VisualBERT [6]、VisualBERT ResMLP [2]和GVLE-LViT模型生成答案和边界框的几个例子。与基线模型相比,本模型的定位和分类预测结果更准确。边界框颜色的表示如下:红色:Ground-truth,蓝色:VisualBERT [6],绿色:VisualBERT ResMLP [2],黄色:GVLE-LViT (Ours)。

文献学习-22-Surgical-VQLA:具有门控视觉语言嵌入的转换器,用于机器人手术中的视觉问题本地化回答,文献学习,医疗机器人,机器人,科技,大模型,gpt,多模态,智能传感与交互

表 II GVLE-LVIT模型在VQLA任务上的K折比较实验,与基于VISUALBERT [6]和VISUALBERT RESMLP [2]的模型。

文献学习-22-Surgical-VQLA:具有门控视觉语言嵌入的转换器,用于机器人手术中的视觉问题本地化回答,文献学习,医疗机器人,机器人,科技,大模型,gpt,多模态,智能传感与交互

表 III 基于 VISUALBERT [6] 和 VISUALBERT RESMLP [2] 的模型,在提出的 GVLE-LVIT 模型上具有不同定位损失函数组合的消融研究

文献学习-22-Surgical-VQLA:具有门控视觉语言嵌入的转换器,用于机器人手术中的视觉问题本地化回答,文献学习,医疗机器人,机器人,科技,大模型,gpt,多模态,智能传感与交互

表IV 基于GVLE语言-视觉嵌入融合与CONCAT[6]、AFF[13]和IAFF [13]融合策略的比较实验。

文献学习-22-Surgical-VQLA:具有门控视觉语言嵌入的转换器,用于机器人手术中的视觉问题本地化回答,文献学习,医疗机器人,机器人,科技,大模型,gpt,多模态,智能传感与交互

本文设计并提出了一个外科视觉问题局部化回答(Surgical-VQLA)模型,该模型可以根据给定的输入问题和手术场景回答“什么”和“在哪里?”,使学生更容易推断“为什么?”。具体来说,提出了一种 GVLE-LViT 模型,该模型使用提出的 GVLE 技术更好地融合异构特征(视觉和文本),该技术在两个外科数据集上的外科-VQLA 任务中优于现有的 SOTA 模型。此外,将GIoU损失与交叉熵损失和L1损失相结合,以提高模型的预测和定位性能。通过广泛的比较、k 倍和消融研究,证明使用提出的损失组合训练的 GVLE-LViT 优于现有的 SOTA 模型。SurgicalVQLA系统可能成为外科培训中的重要辅助工具。虽然所提出的VQLA模型旨在提供可靠的答案预测,但在某种程度上,答案的定位可以帮助量化预测对新数据的可靠性,如果定位远于目标仪器或组织,用户可以推断预测可能是错误的,或者输入数据是分布外数据。因此,使用定位信息来预测预测可靠性可能是未来可能的工作。从应用的角度来看,提出的VQLA模型为医学诊断开辟了新的可能应用。更复杂的数据集和具有挑战性的 QA 对将进一步提高 Surgical-VQLA 系统的前景。

Reference:

[1] Bai, L., Islam, M., Seenivasan, L., & Ren, H. (2023, May). Surgical-vqla: Transformer with gated vision-language embedding for visual question localized-answering in robotic surgery. In 2023 IEEE International Conference on Robotics and Automation (ICRA) (pp. 6859-6865). IEEE.文章来源地址https://www.toymoban.com/news/detail-843732.html

到了这里,关于文献学习-22-Surgical-VQLA:具有门控视觉语言嵌入的转换器,用于机器人手术中的视觉问题本地化回答的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读及代码实现】BiFormer: 具有双水平路由注意的视觉变压器

    BiFormer: Vision Transformer with Bi-Level Routing Attention 视觉转换器的核心组成部分,注意力是捕捉长期依赖关系的有力工具 计算跨所有空间位置的成对token交互时,计算负担和沉重的内存占用 提出了一种新的动态稀疏注意,通过双层路由实现更灵活的内容感知计算分配     过程:

    2024年02月12日
    浏览(43)
  • 22年电赛B题——具有自动泊车功能的电动车——做题记录以及经验分享

    这道题目也是小车类电赛题目,十月份的电赛题,由于之前积累了一些经验,这道题目在做下来的感觉还行,但是我们看题目没有仔细审题,和题目要求有一些些偏差,但是基础大功能还是做出来辽,大家还是可以参考的 这道题目,就是我们日常生活中的科目二,倒车入库和

    2024年02月12日
    浏览(48)
  • 2023年MathorCup大数据赛道A:基于计算机视觉的坑洼道路检测和识别(相关文献)

    本研究论文提出了一种使用深度学习和图像处理技术进行坑洼检测的新方法。所提出的系统利用VGG16模型进行特征提取,并利用具有三重损失的自定义Siamese网络,称为RoadScan。该系统旨在解决道路上的坑洼这一关键问题,这对道路使用者构成重大风险。由于道路上的坑洼造成

    2024年02月08日
    浏览(32)
  • 【动手学深度学习笔记】--门控循环单元GRU

    学习视频:门控循环单元(GRU)【动手学深度学习v2】 官方笔记: 门控循环单元(GRU) 思考一下这种梯度异常在实践中的意义: 我们可能会遇到这样的情况:早期观测值对预测所有未来观测值具有非常重要的意义。 考虑一个极端情况,其中第一个观测值包含一个校验和,

    2024年02月09日
    浏览(33)
  • 机器学习入门--门控循环单元(GRU)原理与实践

    随着深度学习领域的快速发展,循环神经网络(RNN)已成为自然语言处理(NLP)等领域中常用的模型之一。但是,在RNN中,如果时间步数较大,会导致梯度消失或爆炸的问题,这影响了模型的训练效果。为了解决这个问题,研究人员提出了新的模型,其中GRU是其中的一种。

    2024年02月20日
    浏览(28)
  • ASIC设计学习笔记——使用DC工具自动添加门控时钟

    门控时钟是降低数字电路功耗的一个重要手段,在ASIC设计中,设计工具都可以根据使用者的设置自动的完成门控时钟的添加。本文简单描述了门控时钟的概念,并给出了使用DC进行门控时钟添加的操作说明,是初学ASIC设计的学习笔记分享。 数字电路的工作动态功耗主要是由

    2024年02月11日
    浏览(62)
  • 北邮22级信通院数电:Verilog-FPGA(9)第九周实验(3)实现一个具有清零功能的按键计数器,对按键进行计数并显示

    北邮22信通一枚~ 跟随课程进度更新北邮信通院数字系统设计的笔记、代码和文章 持续关注作者 迎接数电实验学习~ 获取更多文章,请访问专栏: 北邮22级信通院数电实验_青山如墨雨如画的博客-CSDN博客   目录 一.代码部分 1.1 counter.v 1.2 debounce.v 二.管脚分配 三.实现效果

    2024年02月05日
    浏览(54)
  • 【计算机视觉 | 目标检测】arxiv 计算机视觉关于分类和分割的学术速递(6月 22 日论文合集)

    模糊图像标注:脊椎骨折诊断生物医学验证图像分类的通用标注策略 论文地址: 虽然存在许多方法来解决策展数据集内的分类问题,但由于数据的偏见或模糊性,这些解决方案在生物医学应用中往往不足。当从脊椎数据推断身高减少时,这些困难尤其明显,临床公认的Gena

    2024年02月10日
    浏览(74)
  • 16.5 参考文献——深度学习定位

    同济大学 Zhao Y, Gong W, Li L, et al. An Efficient and Robust Fingerprint Based Localization Method for Multi Floor Indoor Environment[J]. IEEEa Internet of Things Journal, 2023. 利用深度神经网络(DNN)模型来解决地板识别和位置估计问题。为了解决多楼层识别问题, Jang等人[18] 设计了一种基于 CNN 的识别模型,该

    2024年01月23日
    浏览(35)
  • #13文献学习--边缘计算的计算卸载建模综述

    文献:A survey on computation offloading modeling for edge computing 边缘计算 :在网络边缘、代表云服务的下游数据和代表物联网服务的上游数据上执行计算。 优势 : 计算或云计算包括:与本地计算相比,EC可以克服终端设备(ED)有限计算能力的限制。与向远程云卸载计算相比,EC可以

    2024年02月05日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包