Adam
adam优化器是经常使用到的模型训练时的优化器,但是在bert的训练中不起作用,具体表现是,模型的f1上不来。
AdamW
简单来说,AdamW就是Adam优化器加上L2正则,来限制参数值不可太大
以往的L2正则是直接加在损失函数上,比如这样子:
但AdamW稍有不同,如下图所示:
粉色部分,为传统L2正则施加的位置;而AdamW,则将正则加在了绿色位置。
结论
Adamw 即 Adam + weight decate ,效果与 Adam + L2正则化相同,但是计算效率更高,因为L2正则化需要在loss中加入正则项,之后再算梯度,最后在反向传播,而Adamw直接将正则项的梯度加入反向传播的公式中,省去了手动在loss中加正则项这一步文章来源:https://www.toymoban.com/news/detail-512138.html
更多可参考:
https://blog.csdn.net/yinyu19950811/article/details/90476956
https://blog.csdn.net/real_ilin/article/details/108438089
https://blog.csdn.net/weixin_45743001/article/details/120472616文章来源地址https://www.toymoban.com/news/detail-512138.html
到了这里,关于Adam与AdamW的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!