【YOLOv8改进】 MSDA：多尺度空洞注意力 (论文笔记+引入代码).md-Toy模板网

这篇具有很好参考价值的文章主要介绍了【YOLOv8改进】 MSDA：多尺度空洞注意力 (论文笔记+引入代码).md。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

介绍

onnx 多尺度空洞注意力msda,YOLO目标检测创新改进与实战案例精讲,YOLO,论文阅读,microsoft

摘要

作为事实上的解决方案，标准的视觉变换器（ViTs）被鼓励模拟任意图像块之间的长距离依赖性，而全局关注的接受域导致了二次计算成本。视觉变换器的另一个分支受到CNNs启发，利用局部注意力，只模拟小邻域内块之间的交互。尽管这样的解决方案降低了计算成本，但它自然会受到小的关注接受域的限制，这可能会限制性能。在这项工作中，我们探索有效的视觉变换器，以追求计算复杂性和关注接受域大小之间的理想折衷。通过分析ViTs中全局注意力的块交互，我们观察到浅层中的两个关键属性，即局部性和稀疏性，表明在ViTs的浅层中全局依赖性建模的冗余。因此，我们提出多尺度扩张注意力（MSDA），在滑动窗口内模拟局部和稀疏的块交互。通过金字塔架构，我们通过在低级阶段堆叠MSDA块和在高级阶段堆叠全局多头自注意力块，构建了多尺度扩张变换器（DilateFormer）。我们的实验结果表明，我们的DilateFormer在各种视觉任务上实现了最先进的性能。在ImageNet-1K分类任务上，与现有的最先进模型相比，DilateFormer实现了相当的性能，而计算成本减少了70%。我们的DilateFormer-Base在ImageNet-1K分类任务上实现了85.6%的顶级准确率，在COCO对象检测/实例分割任务上实现了53.5%的框mAP/46.1%的掩码mAP，在ADE20K语义分割任务上实现了51.1%的MS mIoU。文章来源地址https://www.toymoban.com/news/detail-841288.html

到了这里，关于【YOLOv8改进】 MSDA：多尺度空洞注意力 (论文笔记+引入代码).md的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！