MLP-Mixer: An all-MLP Architecture for Vision-Toy模板网

这篇具有很好参考价值的文章主要介绍了MLP-Mixer: An all-MLP Architecture for Vision。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Abstract

在计算机视觉领域，卷积神经网络（CNNs）是首选的模型。最近，基于注意力机制的网络，如Vision Transformer，也变得流行起来。在这篇论文中，我们展示了卷积和注意力虽然都足以实现良好的性能，但它们两者都不是必需的。我们提出了MLP-Mixer，这是一种仅基于多层感知机（MLPs）的架构。MLP-Mixer包含两种类型的层：一种是独立应用于图像块的MLPs（即“混合”每个位置的特征），另一种是跨图像块应用MLPs（即“混合”空间信息）。在大型数据集上进行训练，或使用现代正则化方案时，MLP-Mixer在图像分类基准测试中取得了竞争性的分数，其预训练和推断成本与最先进的模型相当。我们希望这些结果能够激发超越已经建立的CNNs和Transformers领域的进一步研究。

1 Introduction

计算机视觉的历史表明，更大的数据集与增强的计算能力往往导致范式转变。尽管卷积神经网络（CNNs）一直是计算机视觉的事实标准，但最近基于自注意力层的Vision Transformers [14]（ViT）取得了最先进的性能，成为一种替代方案。ViT延续了去除手工制作的视觉特征和归纳偏见的长期趋势，并进一步依赖于从原始数据中学习。

我们提出了MLP-Mixer架构（简称"Mixer"），这是一种竞争性但在概念上和技术上简单的替代方案，不使用卷积或自注意力。相反，Mixer的架构完全基于多层感知机（MLPs），这些MLPs反复应用于空间位置或特征通道。Mixer文章来源地址https://www.toymoban.com/news/detail-802400.html

到了这里，关于MLP-Mixer: An all-MLP Architecture for Vision的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！