IMBALANCED TARGET DISTRIBUTIONS LEARING(目标类别不平衡学习)

这篇具有很好参考价值的文章主要介绍了IMBALANCED TARGET DISTRIBUTIONS LEARING(目标类别不平衡学习)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

什么是目标类别不平衡?

假设你训练集中数据的目标类别的分布较为均匀,那么这样的数据集所建立的分类模型,通常会有比较好的分类效能。

假设你训练集中数据的目标类别的分布不均匀(存在Majority Class和Minority Class的时候),那么这样的数据集造成的问题是分类模型通常倾向将所有数据预测为多数类别,而完全忽视少数类别。

解决目标类别不平衡的方法:

减少多数类别的抽样法:

最近邻策略(KNN Approach)减少多数类别:

  • NearMiss-1(核心思想:如果与MI比较近的样本点,模型都可以分开,那么其他离MI比较远的点,模型自然可以分开。)

Step1:首先计算每个MA与所有MI的距离,然后每个MA会挑选与它最接近的3个MI,并计算与这3个MI的平均距离。

Step2:假如想降到多数类别:少数类别的比例为1:1,那么我们可以选取平均距离较小的前4个MA。

IMBALANCED TARGET DISTRIBUTIONS LEARING(目标类别不平衡学习)IMBALANCED TARGET DISTRIBUTIONS LEARING(目标类别不平衡学习)

  • NearMiss-2:(核心思想:NearMiss-1的条件有些严格,可能导致后续分类模型不再能将样本点分开。NearMiss-2对其做了距离上的改进。)

Step1:首先计算每个MA与所有MI的距离,然后每个MA会挑选与它最远的3个MI,并计算与这3个MI的平均距离。

Step2:假如想降到多数类别:少数类别的比例为1:1,那么我们可以选取平均距离较小的前4个MA。

 文章来源地址https://www.toymoban.com/news/detail-840808.html

IMBALANCED TARGET DISTRIBUTIONS LEARING(目标类别不平衡学习)IMBALANCED TARGET DISTRIBUTIONS LEARING(目标类别不平衡学习)

  • NearMiss-3:(核心思想:NearMiss-3试图将距离最近的MA和MI拆分开。)

Step1:首先计算每个MA与所有MI的距离。

Step2:假如想降到多数类别:少数类别的比例为1:1,那么我们可以对每个MI挑选1个距离较近的MA;如果想降到2:1,那么我们可以对每个MI挑选2个距离较近的MA。

 

IMBALANCED TARGET DISTRIBUTIONS LEARING(目标类别不平衡学习)IMBALANCED TARGET DISTRIBUTIONS LEARING(目标类别不平衡学习)

 

最近邻策略(KNN Approach)减少多数类别的缺点:

1.计算时间过长  计算每个MA与所有MI的距离通常需要花时间。假设正、负样本数量为3000:900w,那么相当于要算 900w^3000次,之后算完后还要排序,计算平均距离。

2.分类效果并没有想象中那么好

3.方法没有考虑多数类别的分布情形  假如数据集有两个MA,一个MI,那么虽然我们为每个MI寻找了各自的“MA“,但如果选择的都是两个MA中数量较多的MA,那么分类结果可能并不偏向于较少的MA。

 

结合聚类解决目标类别不平衡问题

  • Cluster_based Approach:该方法的假设样本可以分为多个不同的类别,设法从多数类别中抽取出具有代表性的样本点。

 假设原来资料点本身的类别是不平衡的,(MA:1000;MI:100)。

Step_1:对原来的资料点进行聚类,假设我们聚了3类。

Step_2:假设第一个类别中的资料点分布比例为10:1,第二个类别中的资料点分布比例为20:1,第三个类别中的资料点分布比例为5:1

Step_3假设总共要从原来资料点中总共抽取100笔的MA,以期将MA:MI比例降低到1:1。

那么我们认为,

第一类别要抽100×(10/35),

第二个类别要抽100×(20/35),

第三个类别要抽100×(5/35)。

Cluster_based Approach的缺点

  1. 聚类的方法需要根据特征来计算距离,不同的特征(重要、非重要)将直接影响到聚类结果的好坏,进而影响抽样的效果。
  2. 需抽取的数据数量需要大于该簇的数据总数。

增加少数类别的抽样法

  • SMOTE:SMOTE的基本假设是:两个MI直线距离之间的样本点也可以被认为是MI

 Step1:针对每个MI,计算与之最近的K个MI。

 Step2:随机选取某个MI中的数据i,并从与之最近的K个MI中随机选取一个数据j

 Step3:计算数据i和数据j之间的差

 Step4:随机产生一个介于0~1之间的值w

 Step5:产生人造数据x+w*p

重复Step2~Step5,直到人造数据满足需求的个数为止。

重复Step2~Step6,直到所有MI都执行过一次,

IMBALANCED TARGET DISTRIBUTIONS LEARING(目标类别不平衡学习)

SMOTE方法 增加少数类别的缺点:

1.没有考虑多数类别数据的分布情形 作者认为少数类别应该分布在一起,在少数类别数据间产生的数据也必然是少数类别。这种假设存在一定的局限性,因为多数类别的分布并没有被考虑进去。

2.分类效果并没有想象中那么好 SMOTE方法带来的分类效能在一些资料集上并没有明显的提升,其分类效能并未明显优于随机减少多数类别抽样法(随机欠采样)

 

到了这里,关于IMBALANCED TARGET DISTRIBUTIONS LEARING(目标类别不平衡学习)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [数据集][目标检测]钢材表面缺陷目标检测数据集VOC格式2279张10类别

    数据集格式:Pascal VOC格式(不包含分割路径的txt文件和yolo格式的txt文件,仅仅包含jpg图片和对应的xml) 图片数量(jpg文件个数):2279 标注数量(xml文件个数):2279 标注类别数:10 标注类别名称:[\\\"yueyawan\\\",\\\"siban\\\",\\\"hanfeng\\\",\\\"chongkong\\\",\\\"shuiban\\\",\\\"yahen\\\",\\\"youban\\\",\\\"yaozhe\\\",\\\"zhehen\\\",\\\"yiwu\\\"] 每个类别标注的

    2024年02月12日
    浏览(49)
  • [数据集][目标检测]PCB板缺陷目标检测数据集VOC格式693张6类别

    数据集格式:Pascal VOC格式(不包含分割路径的txt文件和yolo格式的txt文件,仅仅包含jpg图片和对应的xml) 图片数量(jpg文件个数):693 标注数量(xml文件个数):693 标注类别数:6 标注类别名称:[\\\"missing_hole\\\",\\\"spurious_copper\\\",\\\"spur\\\",\\\"mouse_bite\\\",\\\"open_circuit\\\",\\\"short\\\"] 每个类别标注的框数: missin

    2024年02月12日
    浏览(36)
  • BurpSuite—-Target模块(目标模块)

    前言 本文主要介绍BurpSuite—-Target模块(目标模块)的相关内容 关于BurpSuite的安装可以看一下之前这篇文章: http://t.csdn.cn/cavWt Target功能 目标工具包含了SiteMap,用你的目标应用程序的详细信息。它可以让你定义哪些对象在范围上为你目前的工作,也可以让你手动测试漏洞的过程

    2024年02月08日
    浏览(75)
  • [数据集][目标检测]疲劳驾驶数据集VOC格式4类别-4362张

    数据集格式:Pascal VOC格式(不包含分割的txt文件,仅仅包含jpg图片和对应的xml) 图片数量(jpg文件个数):4362 标注数量(xml文件个数):4362 标注类别数:4 标注类别名称:[\\\"closed_eye\\\",\\\"closed_mouth\\\",\\\"open_eye\\\",\\\"open_mouth\\\"] 每个类别标注的框数: closed_eye count = 2485 closed_mouth count = 3343 open_eye

    2024年02月11日
    浏览(38)
  • [数据集][目标检测]裸土识别裸土未覆盖目标检测数据集VOC格式857张2类别

    数据集格式:Pascal VOC格式(不包含分割路径的txt文件和yolo格式的txt文件,仅仅包含jpg图片和对应的xml) 图片数量(jpg文件个数):857 标注数量(xml文件个数):857 标注类别数:2 标注类别名称:[\\\"luotu\\\",\\\"normal\\\"] 每个类别标注的框数: luotu count = 863 normal count = 30 使用标注工具:labelImg

    2024年02月09日
    浏览(43)
  • [数据集][目标检测]昆虫检测数据集VOC+YOLO格式1873张7类别

    数据集格式:Pascal VOC格式+YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):1873 标注数量(xml文件个数):1873 标注数量(txt文件个数):1873 标注类别数:7 标注类别名称:[\\\"Boerner\\\",\\\"Leconte\\\",\\\"Linnaeus\\\",\\\"acuminatus\\\",\\\"arma

    2024年03月19日
    浏览(61)
  • [数据集][目标检测]茶叶病害数据集VOC+YOLO格式883张8类别

    数据集格式:Pascal VOC格式+YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):883 标注数量(xml文件个数):883 标注数量(txt文件个数):883 标注类别数:8 标注类别名称:[\\\"algalleaf\\\",\\\"Anthracnose\\\",\\\"birdeyespot\\\",\\\"brownblight

    2024年01月16日
    浏览(44)
  • [数据集][目标检测]牛羊检测数据集VOC+YOLO格式3393张2类别

    数据集格式:Pascal VOC格式+YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):3393 标注数量(xml文件个数):3393 标注数量(txt文件个数):3393 标注类别数:2 标注类别名称:[\\\"cow\\\",\\\"sheep\\\"] 每个类别标注的框数: cow

    2024年03月19日
    浏览(44)
  • 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那两个整数,并返回它们的数组下标。(哈希法)

    思路: 当题意中需要判断某个元素是否出现过,或者某个元素是否在这个集合里出现过。 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target  的那两个整数,并返回它们的数组下标。 你可以假设每种输入只会对应一个答案。但是,数组

    2024年02月08日
    浏览(53)
  • 如何平衡薪酬水平和组织目标?

      在组织中,薪酬水平是一个非常重要的因素,因为它涉及到员工的生活质量和组织的运营。然而,如何平衡薪酬水平和组织目标却是一个复杂的问题,需要考虑多个因素。 首先,组织的目标应该是明确的,这将有助于确定薪酬水平的范围。如果组织的目标是追求高利润,那

    2024年02月16日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包