论文阅读——SMLP4Rec An Efficient All-MLP Architecture for Sequential Recommendations

这篇具有很好参考价值的文章主要介绍了论文阅读——SMLP4Rec An Efficient All-MLP Architecture for Sequential Recommendations。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文阅读——SMLP4Rec: An Efficient All-MLP Architecture for Sequential Recommendations

SMLP4Rec:用于顺序推荐的高效全 MLP 架构

摘要

自注意力模型通过捕获用户-项目交互之间的顺序依赖关系,在顺序推荐系统中实现了最先进的性能。然而,它们依赖于向项目序列添加位置嵌入来保留顺序信息,由于这两种类型的嵌入之间的异质性,这可能会破坏项目嵌入的语义。此外,大多数现有工作假设此类依赖关系仅存在于项目嵌入中,但忽略了它们在项目特征中的存在。在我们之前的研究中,我们基于 MLP-Mixer 架构的最新进展,提出了一种新颖的顺序推荐模型,即 MLP4Rec,该模型对序列中项目的顺序自然敏感,因为矩阵元素与序列的不同位置相关在训练中会被赋予不同的权重。我们开发了一种三向融合方案,能够以线性计算复杂度连贯地捕获顺序、跨通道和跨特征相关性,并且比现有的自注意力方法少得多的模型参数。然而,级联混频器结构、不同混频器层之间的大量归一化层以及这些操作产生的噪声限制了信息提取的效率和MLP4Rec的有效性。在这个扩展版本中,我们提出了一个新颖的框架——SMLP4Rec,用于顺序推荐来解决上述问题。新框架将有缺陷的级联结构改为并行模式,并集成归一化层,以最大限度地减少其对模型效率的影响,同时最大限度地提高其有效性。因此,与 MLP4Rec 相比,SMLP4Rec 的训练速度和预测精度大大提高。大量的实验结果表明,所提出的方法明显优于最先进的方法。实现代码可在线获取,以简化重现性。

1 INTRODUCTION

介绍了自注意力机制在顺序推荐中的重要作用。

一些挑战:首先 ,由于常用的项目表示无法在加权和运算中提供项目的位置信息,自注意力及其同源方法对输入项目的顺序不敏感,因此依赖于额外的过程,例如添加位置信息嵌入到输入序列中,使模型了解序列顺序中包含的信息。然而,现有的自注意力方法结合了来自两种异构数据类型的项目序列和位置嵌入,可能会中断项目嵌入的底层语义[47]。其次 ,自注意力的时间复杂度与输入项目序列的长度成二次方,与大规模推荐系统中基于 RNN/LSTM 的 SRS 相比,这增加了不可忽视的计算成本。第三 ,在推荐系统中加入自注意力通常会导致大量的模型参数,这可能会导致模型优化的瓶颈并增加过度拟合的机会。

作者在之前的研究中提出了MLP4Rec模型[1],首先,MLP4Rec 在设计上对输入项序列的顺序敏感,避免了使用位置嵌入造成的瓶颈。其次,在纯 MLP 模块上,MLP4Rec 具有线性计算复杂性,并且比那些基于自注意力的 SRS 模型显着减少模型参数数量。

[1] Muyang Li, Xiangyu Zhao, Chuan Lyu, Minghao Zhao, Runze Wu, and Ruocheng Guo. 2022. MLP4Rec: A pure MLP architecture for sequential recommendations. In Proceedings of the IJCAI.

作者为 MLP4Rec 设计了一种具有跨特征混合器的新型三向信息融合方案,该方案使框架能够捕获不同项目嵌入通道的所有特征之间的复杂交互。

这里还介绍了MLP4Rec的问题从而引出SMLP4Rec,并介绍了如何解决。(详细看论文第三页)

贡献:

  • 作者研究了用简单的 MLP 架构替换自注意力机制以进行顺序推荐的可能性。
  • 据作者所知,提出的 MLP4Rec 模型是第一个提出三向混合 MLP 架构的工作。在本文中,为了训练加速和性能增强,提出了一种优越的模型 SMLP4Rec。
  • 作者提出的框架 SMLP4Rec 的性能和效率改进通过对三个基准数据集的大量实验进行了验证。

2 FRAMEWORK

2.3 Extension: SMLP4Rec Framework

MLP4Rec的限制: (1)最重要的一个限制是它的联级结构是序列混合器、通道混合器、特征混合器。下一个混合器会被前一个混合器的信息所影响,可能不能够独立聚合自身维度的重要信息,可能会导致使用维度内(外)的无效信息。(2)每一个混合器的大量的归一化操作,不仅降低了模型的训练效率还降低了其性能。

gao j, zhao x, li m, et al. smlp4rec: an efficient all-mlp architecture for,论文阅读,推荐算法,论文阅读,推荐算法,人工智能

SMLP4Rec架构: 嵌入层和输出层和MLP4Rec是完全一样的,SMLP4Rec也由L个主要操作层和几个混合模块组成,下面详细描述其中的操作。

潜入层: 学习嵌入查找表以将离散项目标识符(即 ID)和显式特征(例如类别和品牌)投影为维度为 C 的密集向量表示。嵌入表的行是总共具有F个特征的嵌入向量;列包含通道信息长度C,将序列S项的所有嵌入表堆叠在一起(高)。组成一个3-d嵌入表。

归一化操作: 在MLP4Rec的主要操作层中,对序列和特征混合器的归一化操作可能会导致训练效率变慢以及填充信息引起的过多的维度间干扰。因此,在SMLP4Rec中,归一化操作仅应用于信息提取操作中混合模块之前的通道嵌入维度。这还提供了更好的数据分布来表示不同项目中不同特征的隐藏信息,因为不同维度上的频繁归一化可能会累积增加其他维度上的噪声。具体来说,归一化操作可以表示为
x n = L a y e r N o r m ( x ) (1) x_n=LayerNorm(x) \tag 1 xn=LayerNorm(x)(1)
x x x表示模型的输入, x n x_n xn表示归一化操作后的输出,也是信息提取操作的输入.

信息提取操作: 受到 SMLP [2] 稀疏 MLP 结构和 MLP4Rec 用于信息提取的混合器结构的启发,该信息提取操作块旨在同时捕获输入矩阵中的序列、特征和通道特征之间的内部关系。具体来说,序列、特征和通道信息对应于输入矩阵的不同维度,这种结构旨在通过其三个分支帮助模型理解相应维度内不同位置的数据相关性。

[2] Chuanxin Tang, Yucheng Zhao, Guangting Wang, Chong Luo, Wenxuan Xie, and Wenjun Zeng. 2022. Sparse MLP for image recognition: Is self-attention really necessary?. In Proceedings of the AAAI.

Sequence-Mixing Branch: 序列混合分支的目的是了解整个项目序列的顺序依赖关系。序列混合分支的输入将表示为 x s = [ x o ∣ o ∈ C × F ] 和 x o = [ x 1 o , . . . , x s o , . . . , x S o ] x_s=[x^o|o\in C \times F] 和 x^o=[x_1^o,...,x^o_s,...,x^o_S] xs=[xooC×F]xo=[x1o,...,xso,...,xSo] ,o表示序列维度以外的其他尺寸。形式上,我们将第 l l l 层序列混合分支的输出表示为 y S y_S yS 及其元素:
y o = W 2 g l ( W 1 x o ) (2) y^o = W^2g^l(W^1x^o) \tag 2 yo=W2gl(W1xo)(2)
g l g^l gl l l l层的非线性激活函数, W 1 ∈ R r S × S 和 W 2 ∈ R S × r S W^1 \in \Bbb R^{r_S\times S}和W^2 \in \Bbb R^{S\times r_S} W1RrS×SW2RS×rS 分别表示序列混合分支中的第一个和第二个全连接层的可学习权重, r S r_S rS是一个可调整的隐藏大小:
r S = α ⋅ S (3) r_S=\alpha ·S \tag 3 rS=αS(3)
α \alpha α称为扩展因子的整数超参数。

Feature-Mixing Branch: 和序列混合分支一样是MLP的板块,有相似的宏观架构。关键的不同是,特征混合分支是为了了解不同项目特征之间的相关性。特征混合分支的输入将表示为 x F = [ x o ∣ o ∈ S × C ] 和 x o = [ x 1 o , . . . , x f o , . . . , x F o ] x_F=[x^o|o\in S \times C] 和 x^o=[x_1^o,...,x^o_f,...,x^o_F] xF=[xooS×C]xo=[x1o,...,xfo,...,xFo] ,o表示序列维度以外的其他尺寸。形式上,我们将第 l l l 层序列混合分支的输出表示为 y F y_F yF 及其元素:
y o = W 4 g l ( W 3 x o ) (4) y^o = W^4g^l(W^3x^o) \tag 4 yo=W4gl(W3xo)(4)
g l g^l gl l l l层的非线性激活函数, W 3 ∈ R r F × F 和 W 4 ∈ R F × r F W^3 \in \Bbb R^{r_F\times F}和W^4 \in \Bbb R^{F\times r_F} W3RrF×FW4RF×rF 分别表示序列混合分支中的第一个和第二个全连接层的可学习权重, r F r_F rF是一个可调整的隐藏大小:
r F = α ⋅ F (5) r_F=\alpha ·F \tag 5 rF=αF(5)
Channel-Mixing Branch: 通道混合分支的目标是使用 MLP 结构来学习特征的嵌入向量内的相关性。通道混合分支的输入将表示为 x C = [ x o ∣ o ∈ F × S ] 和 x o = [ x 1 o , . . . , x c o , . . . , x C o ] x_C=[x^o|o\in F \times S] 和 x^o=[x_1^o,...,x^o_c,...,x^o_C] xC=[xooF×S]xo=[x1o,...,xco,...,xCo] ,o表示序列维度以外的其他尺寸。形式上,我们将第 l l l 层序列混合分支的输出表示为 y F y_F yF 及其元素:
y o = W 6 g l ( W 5 x o ) (6) y^o = W^6g^l(W^5x^o) \tag 6 yo=W6gl(W5xo)(6)
g l g^l gl l l l层的非线性激活函数, W 5 ∈ R r C × C 和 W 6 ∈ R C × r C W^5 \in \Bbb R^{r_C\times C}和W^6 \in \Bbb R^{C\times r_C} W5RrC×CW6RC×rC 分别表示序列混合分支中的第一个和第二个全连接层的可学习权重, r C r_C rC是一个可调整的隐藏大小:
r C = α ⋅ C (7) r_C=\alpha ·C \tag 7 rC=αC(7)
gao j, zhao x, li m, et al. smlp4rec: an efficient all-mlp architecture for,论文阅读,推荐算法,论文阅读,推荐算法,人工智能
gao j, zhao x, li m, et al. smlp4rec: an efficient all-mlp architecture for,论文阅读,推荐算法,论文阅读,推荐算法,人工智能

Information Fusion Operation. 最后,信息融合操作利用简单的加法将三个方面的信息聚合起来作为本层的输出。信息融合操作可表示为:
y f u s i o n = T r a n s ( y S ) + T r a n s ( y f ) + T r a n s ( y C ) (8) y_{fusion} = Trans(y_S)+Trans(y_f)+Trans(y_C) \tag 8 yfusion=Trans(yS)+Trans(yf)+Trans(yC)(8)
T r a n s ( ) Trans() Trans() 是转置操作,通过这些操作模型最终能够捕获推荐的跨维度信息。

Training. 采用交叉熵损失作为SMLP4Rec的损失函数:
L = − ∑ S n ∈ S e q ∑ s ∈ [ 1 , . . . , S ] [ l o g ( σ ( r i s , s ) ) + ∑ j ∉ S n l o g ( 1 − σ ( r i j , s ) ) ] (9) L = -\sum_{S_n \in Seq} \sum_{s \in [1,...,S]} [log(\sigma (r_{i_s},s))+\sum_{j\notin S_n}log(1-\sigma(r_{i_j},s))] \tag 9 L=SnSeqs[1,...,S][log(σ(ris,s))+j/Snlog(1σ(rij,s))](9)
其中 σ σ σ 降级 sigmoid 函数, r i s , s r_{{i_s},s} ris,s 是模型与真实项 i s i_s is的预测相似度, r i j , s r_{{i_j},s} rij,s 是与位置 s s s 处的采样项的预测相似度, j j j 是负采样项, S e q Seq Seq 是所有用户的集合交互序列。

Inference. 假设在时间步 t t t,我们希望预测下一个项目 i t + 1 i_{t+1} it+1,给定隐藏状态序列 H = h 1 , . . . , h S H = h_1,...,h_S H=h1,...,hS,其中 h S h_S hS i t + 1 i_{t+1} it+1 相关,我们可以计算 h S h_S hS 与所有候选项目之间的余弦相似度 E m E_m Em 通过点积如下:
r m , S = h S ⋅ E m T (10) r_{m,S} = h_S · E_m^T \tag{10} rm,S=hSEmT(10)
其中 m = 1 , . . . , M , E m ∈ R M × C m =1,...,M, E_m \in \Bbb R^{M×C} m=1,...,M,EmRM×C 是所有候选项目的项目嵌入, r m , S r_{m,S} rm,S 表示隐藏状态 S S S 与所有候选项目之间的相似度,顶部预测将根据其相似度进行排序方程。

2.7 Discussion

作者在这里主要总结了 MLP-Mixer、MLP4Rec、SMLP4Rec 和 SMLP 之间的比较,以进一步说明 MLP4Rec 和 SMLP4Rec 的增量改进,并解释为什么 SMLP4Rec 应具有上述结构。(这里不展开概括了,需要了解的可以直接看论文,这篇博客主要是记录一下模型的框架)


这篇论文和之前我发过的一篇MMMLP论文的阅读有相似之处,都是基于MLP用于顺序推荐算法的,这个模型是在作者先前提出的MLP4Rec模型的改进,文章提到的SMLP、MLP-Mixer模型在之后我应该也要再阅读一下。看了几篇论文下来大致能够了解MLP如何在推荐算法中运用并且怎么用。但是也要结合学习一下MLP模型,可以更方便我们理解。文章来源地址https://www.toymoban.com/news/detail-859156.html

到了这里,关于论文阅读——SMLP4Rec An Efficient All-MLP Architecture for Sequential Recommendations的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读《Rethinking Efficient Lane Detection via Curve Modeling》

    目录 Abstract 1. Introduction 2. Related Work 3. B´ezierLaneNet 3.1. Overview 3.2. Feature Flip Fusion 3.3. End-to-end Fit of a B´ezier Curve 4. Experiments 4.1. Datasets 4.2. Evalutaion Metics 4.3. Implementation Details 4.4. Comparisons 4.5. Analysis 4.6. Limitations and Discussions 5. Conclusions 图和表 图  表 附录 A. FPS Test Protocol B. Spec

    2024年02月03日
    浏览(45)
  • 论文阅读:SuMa++: Efficient LiDAR-based Semantic SLAM

    来源:IROS 2019 链接:https://ieeexplore.ieee.org/document/8967704 可靠、准确的定位和映射是大多数自动驾驶系统的关键组成部分。除了映射环境的几何信息外,语义在实现智能导航行为方面也起着重要作用。在大多数现实环境中,由于移动对象引起的动态变换,这个任务特别复杂,这

    2024年03月12日
    浏览(77)
  • [论文阅读]Coordinate Attention for Efficient Mobile Network Design

      最近关于移动网络设计的研究已经证明了通道注意力(例如, the Squeeze-and-Excitation attention)对于提高模型的性能有显著的效果,但它们通常忽略了位置信息,而位置信息对于生成空间选择性注意图非常重要。在本文中,我们提出了一种新的移动网络注意力机制,将位置信息

    2024年02月07日
    浏览(52)
  • 论文阅读:TinySAM: Pushing the Envelope for Efficient Segment Anything Model-文章内容阅读

    论文标题: TinySAM: 极致高效的分割一切模型 论文地址:https://arxiv.org/pdf/2312.13789.pdf 代码地址(pytorch):https://github.com/xinghaochen/TinySAM 详细论文解读:TinySAM:极致高效压缩,手机就能实时跑的分割一切模型 - 知乎 (zhihu.com)  目录 文章内容解析  概括 文章的观点 技术创新解

    2024年01月17日
    浏览(53)
  • 【论文阅读】Dynamic Split Computing for Efficient Deep Edge Intelligence

    作者:Arian Bakhtiarnia, Nemanja Milošević, Qi Zhang, Dragana Bajović, Alexandros Iosifidis 发表会议: ICML 2022 DyNN Workshop ICASSP 2023 发表单位: ∗DIGIT, Department of Electrical and Computer Engineering, Aarhus University, Denmark. †Faculty of Sciences, University of Novi Sad, Serbia. ‡Faculty of Technical Sciences, University of N

    2024年02月11日
    浏览(60)
  • EfficientViT: Memory Efficient Vision Transformer withCascaded Group Attention论文阅读

    高效的记忆视觉transformer与级联的群体注意 摘要。 视觉transformer由于其高模型能力而取得了巨大的成功。然而,它们卓越的性能伴随着沉重的计算成本,这使得它们不适合实时应用。在这篇论文中,我们提出了一个高速视觉transformer家族,名为EfficientViT。我们发现现有的tran

    2024年01月22日
    浏览(46)
  • 【论文阅读】Fair and Efficient Gossip in Hyperledger Fabric -- ICDCS

    受许可的区块链由已识别但单独不可信的节点支持,这些节点共同维护一个复制的分类账,其内容是可信的。Hyperledger Fabric允许区块链系统的目标是高吞吐量的事务处理。Fabric使用一组节点来执行使用共识的事务排序任务。另外的对等点批准和验证事务,并维护分类帐的副本

    2023年04月09日
    浏览(39)
  • 论文阅读--EFFICIENT OFFLINE POLICY OPTIMIZATION WITH A LEARNED MODEL

    作者:Zichen Liu, Siyi Li, Wee Sun Lee, Shuicheng YAN, Zhongwen Xu 论文链接:Efficient Offline Policy Optimization with a Learned Model | OpenReview 发表时间:  ICLR   2023年1月21日  代码链接:https://github.com/sail-sg/rosmo MuZero的离线版本算法(MuZero Unplugged)为基于日志数据的离线策略学习提供了一种很

    2024年02月03日
    浏览(53)
  • 【论文阅读笔记】MobileSal: Extremely Efficient RGB-D Salient Object Detection

    MobileSal: Extremely Efficient RGB-D Salient Object Detection MobileSal:极其高效的RGB-D显著对象检测 2021年发表在 IEEE Transactions on Pattern Analysis and Machine Intelligence。 Paper Code 神经网络的高计算成本阻碍了RGB-D显着对象检测(SOD)的最新成功,使其无法用于现实世界的应用。因此,本文介绍了

    2024年01月18日
    浏览(40)
  • 论文阅读 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    前言:CVPR2022oral 用transformer应用到low-level任务 low-level task 如deblurringdenoisingdehazing等任务多是基于CNN做的,这样的局限性有二: 第一是卷积操作的感受野受限,很难建立起全局依赖, 第二就是卷积操作的卷积核初始化是固定的,而attention的设计可以通过像素之间的关系自适

    2024年02月05日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包