机器学习笔记:主动学习(Active Learning)初探

这篇具有很好参考价值的文章主要介绍了机器学习笔记:主动学习(Active Learning)初探。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1 基本介绍

  • 监督学习问题中,存在标记成本昂贵且难以大量获取的问题。
    • 针对一些特定任务,只有行业专家才能为样本做上准确标记。
  • 在此问题背景下,主动学习(Active Learning, AL)尝试通过选择性地标记较少数据而训练出表现较好的模型。
    • 主动学习最重要的假设不同样本对于特定任务的重要程度不同,所以带来的表现提升也不全相同。
      • 选取较为重要的样本可以使当前模型以较少的标记样本数得到较好的表现
      • 在这一过程中,主动学习的本质对样本的重要性(/信息度/期望带来的表现等)等进行评估

机器学习笔记:主动学习(Active Learning)初探,机器学习,机器学习,笔记,学习

  •  比如上图(a),是一个由400个实例组成的数据集,从两类高斯分布均匀采用。实例表示为二维特征空间中的点
  • (b)表示 从问题域中随机抽取30个标记实例,训练一个逻辑回归模型。这条蓝线代表了分类器的决策边界。按照这样分类,只有70%的准确率
  • (c) 表示使用不确定性抽样对30个主动查询实例进行训练的逻辑回归模型。按照这样分类,有90%的准确率
    • 模型会从数据集中主动选择一些不带标签的数据,交互式地向专家(oracle)请求标注,这个过程叫做query。
    • 在每一次标注之后,模型重新或者增量地在带标签的数据上训练,然后再主动地选择不带标签数据进行标注,重复这个过程。

1.1 从不同角度理解主动学习

从问题的角度 通过以某种主动策略构建较小训练集来减少标记成本的机器学习方式
从策略的角度 以某种方式对未标记样本重要性的评估
从训练的角度 一种交互式的标记、训练、评估流程

2 主动学习基本的问题场景

Pool-based scenario
  • 此类场景通常提供一个未标记的数据池
  • 主动学习策略在数据池中选取相应样本进行标记

机器学习笔记:主动学习(Active Learning)初探,机器学习,机器学习,笔记,学习

Stream-based scenario
  • 此类场景中,数据以数据流的形式输入
  • 主动学习策略需要确定对当前数据进行标记还是直接用现有模型预测
Query synthesis scenario
  • 此类场景较为少见
  • 一个未标记的数据池通常也被提供,但是主动学习策略并不是在数据池中挑选样本进行查询,而是自行生成新样本进行查询
  • 常见的是利用各种生成模型比如VAE/GAN来生成样本
    • 这个其实有一个通病:生成的样本固然是很有信息量,但是有时候专家也可能无法标注

 3 主动学习对样本的评估方法

基于 Pool-based Scenario + Classification

选取的样本进行manual label

  • 查询策略的设计并不是简单和一成不变的,需要根据具体环境、问题和需要进行设定。
    • 比如,在猫狗二分类问题中,一张长得像猫的狗的照片,对分类模型的训练往往是有价值,因为它难以分辨。但是,同样是这张照片,出现在动植物二分类问题中,就变得不那么重要了,因为模型想分辨它并不难
Informativeness
  • 模型对选取样本取值的不确信程度【最不会的东西,提供相应的label】
  • 只用这一个指标的话,通常会忽略数据分布的影像
Representativeness-impart
  • 选取样本是否可以对数据分布起到代表作用【最有代表性的东西,提供相应的label】
Expected Improvements
  • 选取样本能为当前模型带来多少性能提升
Learn to score
  • 不人为启发式地设计选取策略,而是学习一个选取策略

 4 实际应用中主动学习可能存在的问题

4.1 性能不稳定(最大的问题)

  • 主动学习是根据自己指定的选择策略从样本中挑选,那么这个过程中策略和数据样本就是影响性能的两个很重要的因素。
    • 对于非常冗余的数据集,主动学习往往会比随机采样效果要好,但是对于样本数据非常多样,冗余性较低的数据集,主动学习有的时候会存在比随机采样还差的效果。
    • 数据样本的分布还影响不同主动学习的方法,比如基于不确定性的方法和基于多样性的方法,在不同数据集上的效果并不一致
    • ——>这种性能的不稳定是制约人们应用主动学习的一个重要因素

4.2 脏数据的挑战

  • 现在几乎所有的论文都在公开的数据集、现成的数据集上进行测试和研究。
  • 而这些数据集其实已经被选择和筛选过了,去除了极端的离群值,甚至会考虑到样本平衡,人为的给少样本的类别多标注一些,多样本的类别少标注一些。
  • 而实际应用中,数据的状况和这种理想数据集相差甚远。
  • 主动学习常用不确定性的选择策略,不难想象,噪声较大的样本甚至离群值总会被选择并标注
    • ——>这种样本可能不仅不会提升模型的性能,甚至还会使性能变差

4.3 OOD(out of distribution)的问题

例如想训练一个猫狗分类器,直接从网络中按关键字搜索猫狗收集大量图片,里边可能存在一些老虎、狮子、狼等不在猫狗类别的无关样本,但是他们的不确定性是非常高的,被选中的话,并不会提升模型的性能

4.4 难以迁移

  • 主动学习是一种数据选择策略,那么实际应用中必然需求更通用、泛化性更好的主动学习策略。’
  • 而目前的主动学习策略难以在不同域、不同任务之间进行迁移
    • 比如设计了一个猫狗分类任务的主动学习策略,基于不确定性或多样性,达到了较好的性能
    • 现在需要做一个新的鸡鸭分类的任务,那么是否还需要重新设计一个策略?
  • 由于不同任务的数据分布特点可能不一样,不同任务的难易不一样,无法保证主动学习的策略能够在不同数据不同任务中通用,往往需要针对固定的任务设计一个主动学习策略

4.5 流程不便

  • 在流程上,现在主动学习普遍是选择出一批待标注的样本后,交给人们去标注,而期望人们能尽快标注交给模型,模型继续训练后再次选择
  • 人们标注的时候,模型既不能训练,主动学习也不进行其他操作,是个串行的过程,需求等待人工标注结束后,才能进行接下来的训练

参考内容:

主动学习(Active Learning),看这一篇就够了 - 知乎 (zhihu.com)

通俗理解主动学习 - 知乎 (zhihu.com)

主动学习概述(ActiveLearning)文章来源地址https://www.toymoban.com/news/detail-650672.html

到了这里,关于机器学习笔记:主动学习(Active Learning)初探的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • LEARNING TO EXPLORE USING ACTIVE NEURAL SLAM 论文阅读

    题目 :LEARNING TO EXPLORE USING ACTIVE NEURAL SLAM 作者 :Devendra Singh Chaplot, Dhiraj Gandhi 项目地址 :https://devendrachaplot.github.io/projects/Neural-SLAM 代码地址 :https://github.com/devendrachaplot/Neural-SLAM 来源 :LCLR 时间 :2022 这项工作提出了一种模块化和分层的方法来学习探索 3D 环境的策略,称为

    2024年02月14日
    浏览(44)
  • 机器学习(Machine Learning)

    bili 吴恩达 机器学习 这是一门让计算机在没有明确编程的情况下学习的科学。 亚瑟·塞缪尔(1959):赋予计算机学习能力而不被明确编程的研究领域。 机器学习作为人工智能的一个子领域。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已

    2024年02月09日
    浏览(49)
  • 机器学习算法:K近邻(k-nearest neighbors)初探

    KNN的介绍和应用 KNN(K-Nearest Neighbor)算法是一种基于实例的学习算法,也是一种常见的分类算法。 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 示例 :如上图,绿色圆要被决定赋予哪个类,是红

    2023年04月08日
    浏览(42)
  • 机器学习算法(三十):强化学习(Reinforcement Learning)

    目录 1 简介  1.1 什么是强化学习 1.2 强化学习的主要特点 1.3 强化学习的组成部分 2 强化学习训练过程  3 强化学习算法归类 3.1 Value Based 3.2 Policy Based 3.3 Actor-Critic 3.4 其他分类 4 EE(Explore Exploit)探索与利用 5 强化学习实际开展中的难点 6 强化学习的实际应用 6.1 自动驾驶

    2024年02月02日
    浏览(53)
  • 机器学习:self supervised learning

    340M 参数 BERT 自监督学习的目标跟目标越接近越好。 一个任务:预测句子中被mask的词: BERT通过Masking Input来获得训练数据 mask有两种做法: 将某个字token换成一个特殊符号(代表盖住) 随机把某个字换成另外一个字 盖住的部分输出的向量作为Linear层的输入,然后送入softmax得

    2024年02月11日
    浏览(42)
  • 机器学习 深度学习资料 资源machine learning

    Kaggle入门,看这一篇就够了 - 知乎 (zhihu.com) https://zhuanlan.zhihu.com/p/25686876 day1-1.什么是机器学习_哔哩哔哩_bilibili day1-1.什么是机器学习是10天学会机器学习从入门到深度学习的第1集视频,该合集共计62集,视频收藏或关注UP主,及时了解更多相关视频内容。 https://www.bilibili.com

    2024年02月21日
    浏览(54)
  • 机器学习的测试和验证(Machine Learning 研习之五)

    关于 Machine Learning 研习之三、四,可到秋码记录上浏览。 测试和验证 了解模型对新案例的推广效果的唯一方法是在新案例上进行实际尝试。 一种方法是将模型投入生产并监控其性能。 这很有效,但如果你的模型非常糟糕,你的用户会抱怨——这不是最好的主意。 更好的选

    2024年02月11日
    浏览(46)
  • 2 机器学习知识 Softmax回归 deep learning system

    The hypothesis class: 模型结构 loss fuction 损失函数 An optimization method:在训练集上减小loss的方法 训练数据: x ( i ) ∈ R n , y ( i ) ∈ 1 , . . . , k f o r i = 1 , . . . m x^{(i)}in mathbb{R}^n ,y^{(i)}in {1,...,k} for i=1,...m x ( i ) ∈ R n , y ( i ) ∈ 1 , ... , k f or i = 1 , ... m n 是输入数据的维度,输入的每

    2024年02月05日
    浏览(42)
  • Deep Learning-学习笔记

    deep learning训练过程 如果对所有层同时训练,时间复杂度会太高;如果每次训练一层,偏差就会逐层传递。这会面临跟上面监督学习中相反的问题,会严重欠拟合(因为深度网络的神经元和参数太多了)。 2006年,hinton提出了在非监督数据上建立多层神经网络的一个有效方法,

    2024年02月12日
    浏览(37)
  • 应用机器学习的建议 (Advice for Applying Machine Learning)

    问题: 假如,在你得到你的学习参数以后,如果你要将你的假设函数放到一组 新的房屋样本上进行测试,假如说你发现在预测房价时产生了巨大的误差,现在你的问题是要想改进这个算法,接下来应该怎么办? 解决思路: 一种办法是使用更多的训练样本。具体来讲,也许你

    2024年01月25日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包