召回评估方法
- 最好肯定是线上ab,但是ps资源和线上流量都有限。
- 首先auc高并不代表召回的好,实际上好的召回可能auc低一些,但是会召回出更符合真实分布的内容,实际工作中auc当作参考就好。
- 拿Top K召回结果与用户实际点击做交集并计算precision/recall,感觉现在大多都是用的这个方法,但是我总感觉极端条件下N路召回全都100%准确率召回率,那其实5路变成1路就好了,而且完全在拟合精排,又陷入了无探索的困境,因为召回的结果未被用户点击,未必说明用户不喜欢,而可能是由于该召回结果压根没有给用户曝光过。参考[召回通道的评级指标——recall@k];Airbnb所使用的方法是看“用户实际点击”在“召回结果”中的平均位置。
- 召回diff率。其实我现在还比较喜欢拿这个来预估要不要上线,因为diff高才有bagging一路召回的价值(当然还有是否保送,精排是否能排出来的问题),diff高就有上线一试的价值;另外一个就是,如果分层来看diff大,也可以一试,看效果时,也只分层效果;或者看单路召回通道唯一或者非唯一占比。
- 人肉debug:最近搞了一个模型,自己经常会拿组里同学的uid来打印召回结果,然后人肉评估一下靠不靠谱。虽然有点蠢,但是确实能帮我验证模型/机制做没做对,也能有个摸底的效果。
- 还可以是:多样性+类目符合率+doc的goods粒度统计cxr_pv价值等
- i2i召回效果分析
1 曝光点击pay上的覆盖变化:
合并的数据占比是:原swing取top0.8+其它(如clk2pay)取top0.2
文章来源地址https://www.toymoban.com/news/detail-425561.html
文章来源:https://www.toymoban.com/news/detail-425561.html
到了这里,关于召回:效果评估的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!