【深度学习:集中偏差】减少计算机视觉数据集中偏差的 5 种方法

这篇具有很好参考价值的文章主要介绍了【深度学习:集中偏差】减少计算机视觉数据集中偏差的 5 种方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【深度学习:集中偏差】减少计算机视觉数据集中偏差的 5 种方法,深度学习知识专栏,深度学习,计算机视觉,人工智能

尽管计算机视觉领域有无数的创新,但“垃圾进,垃圾出”的概念仍然是数据科学领域内任何事物的关键原则。与此特别相关的一个领域是用于训练机器学习模型的数据集中的偏差。

如果您的数据集在某种程度上存在偏差,则会对计算机视觉模型的结果产生负面影响,无论是使用训练数据集还是已进入生产阶段。

机器学习模型中有一些众所周知的偏差例子。例如,亚马逊的招聘算法被发现存在性别偏见,偏袒男性而不是女性。美国各州法官使用的一种风险评估量刑算法,即 COMPAS(替代制裁的惩教罪犯管理分析),被发现在因暴力犯罪被判刑时对黑人被告存在偏见。微软在 2016 年的一天试验了一款名为 Tay 的 Twitter 聊天机器人,该算法生成了数千条充满种族主义、仇恨言论、反犹太主义、性别歧视和厌女症的推文。

所有这些事情有什么共同点,这对于尝试在基于图像或视频的数据集上使用人工智能模型的公司意味着什么?

算法本身不能有偏见。另一方面,无论有意还是无意,人类都是如此。偏爱某件事、概念或人口统计的个人偏见可能会无意中影响算法产生的结果。不仅如此,如果使用有偏差的数据集来训练这些算法,那么结果将偏向或反对特定的结果和结果。

在本文中,我们概述了由有偏差的计算机视觉数据集引起的问题以及减少这些数据集中的偏差的五种方法。

有偏差的计算机视觉数据集会导致哪些问题?

偏差几乎可以在任何时候进入数据集或计算机视觉模型。可以肯定地假设几乎所有数据集都存在偏见,即使是那些不涉及人的数据集。基于图像或视频的数据集可能会偏向或反对过多或过少的特定对象示例,例如汽车、卡车、鸟类、猫或狗。困难在于,知道如何识别偏见,然后了解如何有效地抵消它。

偏差可能会在项目的收集、聚合、模型选择和最终用户解释阶段无意中进入数据集。这种偏见可能源于人类的偏见和成见,源于那些参与选择数据集、生成注释和标签的人,或者源于对数据集的无意简化。

在基于图像或视频的计算机视觉数据集中,通常会无意中出现不同类型的偏差。最常见的三种如下:

样本类数量不均匀: 当数据集中存在这种偏差时⏤特别是在训练阶段⏤模型会多次暴露于不同类别的对象。因此,合理的假设是模型可能会赋予更频繁出现的样本更多的权重,而代表性不足的样本可能表现不佳。例如,培训项目的目的可能是向计算机视觉模型展示如何识别特定品牌和型号的汽车。如果您没有展示足够多的非该品牌和型号的其他汽车的示例,那么它的性能就不会达到您想要的效果。

理想情况下,为了减少这种类型的偏差,我们希望模型看到不同类别的相同数量的样本,特别是在尝试识别正面和负面结果时。更重要的是,当模型训练旨在支持医学诊断时,CV 模型会接触到足够范围的样本类别。

选择偏差: 收集数据集时,可能是从人口的子集(例如特定种族群体)中抽样的,或者在许多情况下,数据集无意中排除了各个种族群体。或者数据集中包含太多男性或女性。

在任何情况下,数据集都不会完全代表总体人口,并且会有意或无意地带有选择偏差。当模型在此类数据集上进行训练时,它们在生产阶段的泛化性能很差,产生有偏差的结果。

类别偏差: 注释数据集时,注释器甚至自动注释工具有时可能会将一种标签类别与另一种标签类别混淆。例如,狗可以被标记为狐狸,或者猫可以被标记为老虎。

在这种情况下,由于类别标签的混乱和偏差,计算机视觉模型的表现将低于预期。

其中任何一个都可能导致数据集不平衡,从而产生不平衡或有偏差的结果。当然,还有其他例子,例如根据国家/地区应用错误的标签。例如,在美国使用“purse”一词,意思是女性的手提包,而在英国,“purse”是女性钱包的名称。

算法偏差也是可能的,这可能是由多种因素引起的。例如,计算机视觉模型在错误的上下文或环境中使用,例如为医学成像数据集设计的模型被用来识别天气模式或潮汐侵蚀。人类偏见自然也会影响计算机视觉模型。

如何减少计算机视觉数据集中偏差的示例

值得庆幸的是,有多种方法可以减少计算机视觉数据集中的偏差,例如:

  1. 观察注释过程以测量类别不平衡,使用质量控制过程来限制任何潜在的类别或选择偏差。

  2. 在获取数据集时,图像或视频必须尽可能来自不同的来源,以覆盖尽可能广泛的对象和/或人员,包括适用的性别和种族群体。

  3. 注释程序应该明确定义,当数据集中存在矛盾的例子或边缘/边缘情况时,应该达成共识。

对于每个训练和生产就绪的数据集,目标应该是收集大量图像或视频,这些图像或视频代表您要解决的问题的类和类别,并正确注释它们。

现在,这里有五种更详细地减少偏见的方法:

观察并监控带注释样本的类别分布

在注释过程中,我们应该观察数据集中的类分布。如果数据集中存在代表性不足的样本组,我们可以使用主动学习模式提高未标记样本中代表性不足的类的优先级。例如,我们可以在数据集中找到与少数类别相似的图像,并且可以增加它们在注释队列中的顺序。

借助 Encord Active,您可以更轻松地在数据集中找到相似的图像或对象,并优先标记这些图像或视频,以减少数据中的整体偏差。

【深度学习:集中偏差】减少计算机视觉数据集中偏差的 5 种方法,深度学习知识专栏,深度学习,计算机视觉,人工智能

确保数据集代表模型适用的人群

在收集和整理任何数据集时,我们应该小心创建一个准确代表总体的数据集(例如,“总体”是指模型在生产阶段将处理的任何目标群体)。

例如,假设一个医学成像计算机视觉项目正在尝试收集胸部 X 射线图像来检测患者的 COVID-19。那么,这些图像应该来自不同的机构和广泛的国家。否则,当特定群体没有足够广泛的样本量时,我们就会面临模型出现偏差的风险。

明确定义对象分类、标记和注释的流程

在开始任何注释工作之前,应准备一个程序/策略。

在此政策中,应明确定义类别和标签。如果存在令人困惑的类别,则应详细解释它们的差异,甚至应共享每个类别的样本图像。如果存在非常接近的同一类型的对象,则应明确定义是否将它们单独标记或是否单个注释将覆盖两者。如果存在被遮挡的物体,它们的部分是单独标记还是整体标记?所有这些都应该在应用任何注释和标签之前定义。

【深度学习:集中偏差】减少计算机视觉数据集中偏差的 5 种方法,深度学习知识专栏,深度学习,计算机视觉,人工智能

为标签质量保证建立共识基准

当存在特定领域的任务时,例如在医疗保健领域,图像或视频应该由不同的专家进行注释,以避免根据自己的经验产生偏见。例如,一位医生可能会根据自己的经验和性格更倾向于将肿瘤归类为恶性,而其他医生可能会采取相反的做法。 Encord Annotate 拥有共识基准和质量保证等工具,可以减少此类偏差对模型产生负面影响的可能性。

定期检查模型的性能

您必须定期检查模型的性能。通过检查模型的性能,您可以了解模型在哪些样本/条件下失败或表现良好。这样您就知道应该优先进行标签工作的样品。 Encord Active 提供了一个用户界面 (UI),以便您可以轻松地可视化模型的性能。

借助 Encord Active,用户可以定义指标来评估其模型针对这些指标和目标的表现。文章来源地址https://www.toymoban.com/news/detail-820152.html

到了这里,关于【深度学习:集中偏差】减少计算机视觉数据集中偏差的 5 种方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深度学习与计算机视觉的创新

    深度学习和计算机视觉是现代人工智能领域的两个重要分支。深度学习是一种通过多层神经网络来处理大规模数据的机器学习方法,而计算机视觉则是利用计算机程序来模仿人类视觉系统对图像进行分析和理解的技术。在过去的几年里,深度学习与计算机视觉的融合已经取得

    2024年04月09日
    浏览(52)
  • 计算机视觉(三)未有深度学习之前

    把图像划分成若干互不相交的区域。 经典的数字图像分割算法一般是基于灰度值的两个基本特征之一:不连续性和相似性。 基于阈值:基于图像灰度特征计算一个或多个灰度阈值。将灰度值与阈值比较,最后将比较结果分到合适的类别中。 大津法 基于边缘:边界线上连续的

    2024年02月15日
    浏览(54)
  • 【探索AI】三十一-计算机视觉(六)深度学习在计算机视觉中的应用

    深度学习在计算机视觉中的应用已经取得了显著的成果,并且正在逐步改变我们对图像和视频信息的处理和理解方式。下面将详细讲解深度学习在计算机视觉中的几个关键应用。 首先,我们来看图像分类。图像分类是计算机视觉的基本任务之一,它涉及到将输入的图像自动归

    2024年04月09日
    浏览(70)
  • 《计算机视觉度量:从特征描述到深度学习》--工业视觉深度学习方法概述

    博主更新了几期关于深度学习在工业场景的应用文章,本次全面阐述一下深度学习方法在整个应用场景的方法和应用的局限特性: 分类:分类作为深度学习基本的研究方向,这几年的学术研究取得了重大突破。基本原理如下图 原理分析:采用图片的每个像素值,通过深度学

    2024年02月20日
    浏览(53)
  • 【学习笔记】计算机视觉深度学习网络模型

    这是本人学习计算机视觉CV领域深度学习模型的学习的一点点学习笔记,很多片子没有完成,可以作为学习的参考~

    2024年04月10日
    浏览(73)
  • 计算机视觉:从图像识别到深度学习

    💂 个人网站:【工具大全】【游戏大全】【神级源码资源网】 🤟 前端学习课程:👉【28个案例趣学前端】【400个JS面试题】 💅 寻找学习交流、摸鱼划水的小伙伴,请点击【摸鱼学习交流群】 计算机视觉是人工智能领域中的一个重要分支,它致力于让计算机能够理解和处理

    2024年02月07日
    浏览(58)
  • PyTorch深度学习实战(5)——计算机视觉

    计算机视觉是指通过计算机系统对图像和视频进行处理和分析,利用计算机算法和方法,使计算机能够模拟和理解人类的视觉系统。通过计算机视觉技术,计算机可以从图像和视频中提取有用的信息,实现对环境的感知和理解,从而帮助人们解决各种问题和提高效率。本节中

    2024年02月15日
    浏览(50)
  • 【小智好书分享• 第一期】深度学习计算机视觉

    🎉博客主页:小智_x0___0x_ 🎉欢迎关注:👍点赞🙌收藏✍️留言 🎉系列专栏:好书分享 🎉代码仓库:小智的代码仓库 计算机视觉有多先进?开一开特斯拉就知道了。深度学习技术已在人脸识别、交互式仿真和医学成像方面取得令人兴奋的突破,但最让人心潮澎湃的当属自

    2024年01月16日
    浏览(56)
  • 计算机视觉——飞桨深度学习实战-起始篇

    后面我会直接跳到实战项目,将计算机视觉的主要任务和目标都实现一遍,但是需要大家下去自己多理解和学习一下。例如,什么是深度学习,什么是计算机视觉,什么是自然语言处理,计算机视觉的主要任务有哪些,有哪些要学的基础知识等等。 并且我会上传一些免费的课

    2024年02月07日
    浏览(43)
  • 计算机视觉基础(10)——深度学习与图像分类

    传统视觉算法采用手工设计特征与浅层模型 ,而手工设计特征依赖于专业知识,且泛化能力差。深度学习的出现改变了这一状况, 为视觉问题提供了端到端的解决方案 。在之前的课程中,我们已经学习了图像分类的传统知识。在本节课中,我们将学习到 图像分类融合深度学

    2024年02月04日
    浏览(87)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包