1. epsilon-greedy strategy
11111
2. UCB strategy
222
3. Softmax strategy
333
4. Gradient strategy
444
References
[1] 科学网—【RL系列】Multi-Armed Bandit笔记——Softmax选择策略 - 管金昱的博文文章来源:https://www.toymoban.com/news/detail-653527.html
[2] The Epsilon-Greedy Algorithm | James D. McCaffrey文章来源地址https://www.toymoban.com/news/detail-653527.html
到了这里,关于Softmax Strategy的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!