我们都知道数据对于深度学习模型的重要性,但是如何省时省力的得到高质量的数据呢?这就是此文章探讨的问题。
目录
1. 论文下载
2. 背景
3. 相关技术
4. 创新点
5. 算法
5.1 置信学习(Confident learning)
5.2 目标检测中的CL算法
1. 论文下载
https://arxiv.org/abs/2211.13993
2. 背景
对于深度学习模型来说,标注数据的准确性,对模型的精度有很大的影响。而对于比如安全领域、自动驾驶领域,模型的精度是至关重要的,所以需要一些技术能够评价数据集并找出标注错误的数据,这也是该论文的关注点。
3. 相关技术
科研人员处理噪声数据的方法有很多。
(1)最简单的办法:雇佣多个标注员,对同一张图片进行多次标注,然后投票或者利用一致性等一些方法,判断哪个标注是对的,此类的缺点是耗时耗力;
(2)还有就是提出实现自适应的、耐噪声的DL算法,而不是试图发现的错误标签。缺点是不能从根本上解决问题,只是兼容了当前数据的噪声;
(3)其他研究人员提出的自信学习(Confident learning)方法:自信学习通过假设类条件噪声和
估计噪声和正确标签之间的联合概率分布来指出可疑标签,后面会细讲。
4. 创新点
(1)在目标检测领域,提出第一个检测噪声数据的方法;
(2)利用提出的检测噪声方法,成功的从公开的数据集中检测出了错误的标注数据,从而证实被广泛使用的数据集中确实存在一些错标的数据。
5. 算法
5.1 置信学习(Confident learning)
统计预测值和正确标签之间的概率分布来指出可疑标签。具体例子如下。
(1)该算法有两个输入和一个输出,两个输入是二值化标注值Y和模型预测值P,如下
每一行代表一个数据样本,第一个数据标注类别是3,第二个类别是1,然后预测第一个数据为类别2的概率最大,预测第二个数据是类别1的概率最大,第一个数据被错误预测,所以被怀疑为噪声数据。所以该算法输出是E.
5.2 目标检测中的CL算法
(1)每张图片和对应的bbox标注输入到目标检测模型,进行推理预测;
(2)推理预测的数据必须不能来自训练集;
(3)将原始标注gt_bbox和预测p_bbox进行聚类,其中该聚类方法是基于一个距离阈值,该距离计算公式是1-IOU(bbox_a, bbox_b),
待续。。。文章来源:https://www.toymoban.com/news/detail-461364.html
参考:文章来源地址https://www.toymoban.com/news/detail-461364.html
到了这里,关于cvpr2023-目标检测-Combating noisy labels in object detection datasets的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!