ICML 2023 | 拓展机器学习的边界

这篇具有很好参考价值的文章主要介绍了ICML 2023 | 拓展机器学习的边界。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

编者按:如今,机器学习已成为人类未来发展的焦点领域,如何进一步拓展机器学习技术和理论的边界,是一个极富挑战性的重要话题。7月23日至29日,第四十届国际机器学习大会 ICML 2023 在美国夏威夷举行。该大会是由国际机器学习学会(IMLS)主办的年度机器学习国际顶级学术会议,旨在推动机器学习领域的学术进步。在 ICML 2023 上,微软亚洲研究院的研究员们有多篇论文入选,今天我们将为大家简要介绍其中的5篇。

回路神经网络:一种实现多种神经回路模式的通用神经网络

ICML 2023 | 拓展机器学习的边界,机器学习,人工智能

论文链接:https://openreview.net/pdf?id=Fl9q5z40e3

近年来,人工神经网络(Artificial Neural Network, ANN)在多个领域取得了巨大的成功,这在一定程度上归功于其对人脑结构的模仿。然而,最近的神经科学进展揭示,神经元之间实际上是通过多种多样的连接模式相互交互来处理信息的,这些连接模式有时也被称作回路模式(Circuit Motifs)。但许多现有的人工神经网络只能在其架构中模拟一种或两种回路模式。例如,前馈神经网络很好地模拟了前馈回路模式,循环神经网络模拟了神经元相互连接成环的模式。这种对于不同结构的模拟差异导致了它们在不同类型的机器学习任务中会存在性能差异。

ICML 2023 | 拓展机器学习的边界,机器学习,人工智能

图1:神经元之间的不同回路模式,绿色的神经元通过黄色神经元传入的信号更新自身的状态。从左往右,四种模式分别是前馈模式,环路模式,反馈模式和横向模式

在这篇论文中,研究员们提出了一种新型的神经网络——回路神经网络(CircuitNet),其灵感来源于对大脑神经回路结构的模拟。在 CircuitNet 中,一组密集连接的神经元——回路模式单元(CMU),形成了网络的基本单元。研究员们在 CMU 中引入神经元之间的注意力机制或者高次次项,再调整 CMU 内部的权重,这些基础单元就能够模拟更加通用的回路模式。与传统的前馈网络相比,CircuitNet 具有模拟更多类型神经元连接的能力,如反馈和横向模式。

ICML 2023 | 拓展机器学习的边界,机器学习,人工智能

图2:CircuitNet 的模型结构。作为一个通用的神经网络,CircuitNet 可以根据输入的形式用在各种各样的下游任务中(左)。CircuitNet 由一些 CMU 通过相互间的稀疏连接构成 (中)。在单个 CMU 中,神经元间以复杂的形式稠密连接在一起从而建模通用的回路模式,例如,绿色的线连接了两个神经元,可以用来表示线性变换,而红线可以表示更高级的涉及三个神经元的变换,如神经元间的注意力机制(右)

另外,受到人脑局部密集和全局稀疏结构的启发,不同 CMU 之间通过输入端口和输出端口的稀疏连接实现了多次信号传递。

实验证明,CircuitNet 在函数逼近、强化学习、图像分类和时间序列预测等任务中均优于流行的神经网络架构。CircuitNet 不仅提供了更好的性能和灵活性,还为解决复杂的机器学习任务和认知模型奠定了坚实的基础。

带概率激发臂的上下文组合多臂老虎机问题

ICML 2023 | 拓展机器学习的边界,机器学习,人工智能

论文链接:https://arxiv.org/abs/2303.17110

将传统的组合优化和在线学习相结合的组合多臂老虎机(combinatorial multi-armed bandit)是通过在线反馈机制来不断改进模型优化效果的。本文提出了一种新的上下文组合多臂老虎机模型 C^2MAB-T,它结合了上下文信息和概率激活模型,并基于简单而有效的线性结构假设,实现了更好的可扩展性。该模型适用于大规模推荐系统、在线广告、社交网络、无线网络等多个领域。

针对 C^2MAB-T,研究员们在多种光滑条件下设计了相应的算法并进行了理论分析。在概率激活调节(TPM)条件下,研究员们提出了 C^2-UCB-T 算法,消除了潜在的指数级大因子 1/p 对算法性能的影响,其中p表示的是任何臂被触发的最小正概率。在概率激活方差调节(TPVM)条件下,研究员们进一步提出了 VAC^2-UCB 算法,实现了每个时刻激活的臂数K对算法性能影响的更好控制,使其从 O(K) 降低为 O(log K)。需要注意的是,文中的分析技术和方差自适应算法也同样适用于 CMAB-T 和 C^2MAB,并且改进了现有算法的结果。

C^2MAB-T 模型通过仿真实验在推荐系统场景中验证了算法的性能。相较于两组现有算法,C^2MAB-T 的算法分别获得了25%和45%的性能提升。

ICML 2023 | 拓展机器学习的边界,机器学习,人工智能

图3:基于 MovieLens-1M 数据集的实验表明,VAC^2-UCB(蓝色)在性能上超过了 C^3-UCB [Li et al., ICML'16](红色)和另一个方差感知算法 CascadeWOFUL [Vial et al., NeurIPS'22(绿色)],分别减少了45%和25%算法损失(regret)。

Magneto:一种基础的Transformer模型架构

ICML 2023 | 拓展机器学习的边界,机器学习,人工智能

论文链接:https://openreview.net/pdf?id=oeAhgeKFEw

近年来,人们陆续见证了语言、视觉、语音以及多模态等领域中模型架构的大融合。从自然语言处理开始,Transformers 已经广泛作为视觉、语音以及多模态在内的各领域骨干网络。然而,尽管都使用同样的名字“Transformers”,但它们的实现在不同任务中存在着显著差异。在多模态模型的预训练中,对于不同的输入模态,最优的 Transformer 变体通常是不同的。图4总结了在各任务上广泛使用的先进模型的架构。视觉预训练往往使用 Pre-LayerNorm 的 Transformers,而掩码语言建模和机器翻译则使用 Post-LayerNorm 以取得更好的性能。以视觉-语言预训练为例,对于视觉编码来说,使用 Post-LayerNorm 是次优的,而对于语言任务来说,使用 Pre-LayerNorm 则是次优的。真正的多模态预训练需要一个在各种任务和模态下都能表现良好的统一架构。另外,大规模 Transformer 模型训练难、易崩溃,需要付出巨大的成本来调整超参数或监督模型的训练过程。

ICML 2023 | 拓展机器学习的边界,机器学习,人工智能

图4:微软亚洲研究院的研究员们提出的 Magneto 在语言、语音、视觉和多模态任务上比之前最先进的骨干网表现更好。

由此,微软亚洲研究院的研究员们呼吁发展“Foundation Transformers”以实现真正的通用建模,进而提出了 Magneto。图5展示了 Magneto 的伪代码和不同架构下的示意图。可以看到,Magneto 引入了 Sub-LayerNorm,并在每个子层中增加了一个额外的层归一化来减缓预训练中遭遇的激活爆炸。此外,研究员们还拓展了 DeepNet 对于训练稳定性的分析框架,为 Magneto 提出了一种新的初始化方法,从理论上保证深层模型训练的稳定,使得 Magneto 可以无痛地进行扩展。

ICML 2023 | 拓展机器学习的边界,机器学习,人工智能

图5:左上:Sub-LN 的伪代码。这里以 Xavier 初始化为例,可以用其他标准初始化方法替代。γ 是一个常数。右上:不同架构(N 层编码器,M 层解码器)的 γ 值。底部:不同架构下的 Sub-LN。

研究员们在广泛的任务和模态上评估了 Magneto 的性能,包括掩码语言建模(BERT)、因果语言建模(GPT)、机器翻译、掩码图像建模(BEiT)、语音识别和视觉-语言预训练(BEiT-3)。图4展示了 Magneto 在各种下游任务上显著优于现有分别设计的 Transformer 变体。而且,Magneto 在优化方面更稳定,这就使得以更高的学习率来提升下游任务性能的表现成为可能,同时不会导致训练崩溃。

环境干扰下的鲁棒情境强化学习

ICML 2023 | 拓展机器学习的边界,机器学习,人工智能

论文链接:https://openreview.net/pdf?id=hGJLN2Ys4c

在很多实际的任务中,动态变化且不可控制的环境因子对决策过程起着重要作用,比如库存管理中的顾客需求量和自动驾驶中的前车速度,这类环境因子被为上下文(context)。强化学习在这类应用中的主要挑战之一在于,真实的上下文转移分布会暴露于某些因素的干扰下,导致上下文的转移分布发生偏移,极大地影响强化学习算法的性能。例如,在自动驾驶的跟车任务中,智能体在训练中遇到前车速度一直是正常的,但在测试的时候前车突然急刹车,导致智能体控制的车撞了上去。

为了处理这类问题,研究员们提出利用胡伯尔污染模型(Huber’s contamination model)对上下文转移分布的偏差和不确定性进行建模,并称这个框架为对形势变化鲁棒的马尔可夫决策过程。基于这个模型,研究员们把现有的强化学习算法扩展成能对上下文转移分布的扰动达到比较好鲁棒效果的算法,从而得到对形势变化鲁棒的决策。在跟车类型的机器人运动控制和库存管理的实验里,相比基础的强化学习算法和鲁棒强化学习算法,该算法达到了对于上下文扰动更好的鲁棒性能。

ICML 2023 | 拓展机器学习的边界,机器学习,人工智能

图6:胡伯尔污染模型框架

Synthetic Prompting: 为大语言模型合成有效的思维链示例

ICML 2023 | 拓展机器学习的边界,机器学习,人工智能

论文链接:https://openreview.net/pdf?id=RYD1UMgTdk

大语言模型可以通过链式思考(chain-of-thought prompting)来完成各种推理任务,即利用指令和任务示例引导模型生成逐步的推理过程来解决问题。在少样本的情况下,语言模型的表现很大程度上取决于任务示例的质量,尤其是在推理过程复杂且模式多样的任务上。理想情况下,科研人员们希望能获取大量且多样的示例,从中选取对模型帮助最大的示例构成任务提示词。然而,人工构建大量的示例既费时又繁琐,而仅依赖少量的人工示例则可能不利于模型泛化到更多样的测试场景当中去。

为解决上述问题,研究员们提出了 Synthetic Prompting,利用大语言模型自身的知识和生成能力,基于有限的人工示例合成更多更有效的示例,并通过合成示例触发更好的推理表现。具体而言,给定一些种子示例,每个示例由一个问题和一系列推理步骤组成,通过交替进行后向-前向过程来引导语言模型生成更多示例:(1)后向过程,语言模型根据自我采样的推理链合成一个问题,以确保问题可回答且逻辑清晰;(2)前向过程,语言模型基于合成的问题生成一个推理链,确保推理链的精确性。这个过程需一直重复直到获得足够的合成示例。

为了从合成的示例集中选择最有效的示例,研究员们提出了一种基于 in-cluster complexity 的选择方案:通过对示例进行聚类并选择每个聚类中最复杂的示例(推理链最长的示例)来最大程度地增加所选示例的多样性和信息量。最后,用所选定的示例构成提示词来进行推理测试。

ICML 2023 | 拓展机器学习的边界,机器学习,人工智能

图7:示例合成阶段的后向过程(左图)和前向过程(右图)。在后向过程中,研究人员将主题词、所期望的推理复杂度、以及模型采样生成的推理过程(蓝色部分)作为问题合成(绿色部分)的生成条件,以分别提高所合成样本的多样性、信息量、和逻辑性。在前向过程中,语言模型为后向过程中所生成的问题合成一个更精确的推理链(紫色部分)。后向过程中生成的问题和前向过程中生成的推理过程构成一个合成示例。

Synthetic Prompting 让大语言模型同时充当任务示例的“消费者”和“生产者”,一定程度上实现推理效果的自我提升。在数值推理、算法推理和符号推理任务上的实验表明,相比于此前方法,如 chain-of-thought prompting 和 PAL prompting,Synthetic Prompting 可以实现高达15.6%的提升。文章来源地址https://www.toymoban.com/news/detail-614433.html

到了这里,关于ICML 2023 | 拓展机器学习的边界的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 人工智能|机器学习——基于机器学习的舌苔检测

    基于深度学习的舌苔检测毕设留档.zip资源-CSDN文库 目前随着人们生活水平的不断提高,对于中医主张的理念越来越认可,对中医的需求也越来越多。在诊断中,中医通过观察人的舌头的舌质、苔质等舌象特征,了解人体内的体质信息从而对症下药。 传统中医的舌诊主要依赖

    2024年02月22日
    浏览(70)
  • 【机器学习】人工智能概述

    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 1.人工智能概述 1.1 机器学习、人工智能与深度学习 1.2 机器学习、深度学习能做些什么

    2024年02月09日
    浏览(55)
  • 机器学习--人工智能概述

    入门人工智能,了解人工智能是什么。为啥发展起来,用途是什么,是最重要也是最关键的事情。大致有以下思路。 人工智能发展历程 机器学习定义以及应用场景 监督学习,无监督学习 监督学习中的分类、回归特点 知道机器学习的开发流程 人工智能在现实生活中的应用

    2024年01月19日
    浏览(60)
  • 人工智能与机器学习

    欢迎关注博主 Mindtechnist 或加入【Linux C/C++/Python社区】一起探讨和分享Linux C/C++/Python/Shell编程、机器人技术、机器学习、机器视觉、嵌入式AI相关领域的知识和技术。 专栏:《机器学习》 ​ ​ ☞什么是人工智能、机器学习、深度学习 人工智能这个概念诞生于1956年的达特茅斯

    2024年02月02日
    浏览(63)
  • 人工智能与机器人|机器学习

    原文链接: https://mp.weixin.qq.com/s/PB_n8woxdsWPtrmL8BbehA 机器学习下包含神经网络、深度学习等,他们之间的关系表示如图2-7所示。 图2-7 关系图 那么什么是机器学习、深度学习、他们的区别又是什么呢? 2.7.1 什么是机器学习? 机器学习是 人工智能 (AI) 和计算机科学的一个分支,

    2024年02月06日
    浏览(79)
  • 人工智能、机器学习、深度学习的区别

    人工智能涵盖范围最广,它包含了机器学习;而机器学习是人工智能的重要研究内容,它又包含了深度学习。 人工智能是一门以计算机科学为基础,融合了数学、神经学、心理学、控制学等多个科目的交叉学科。 人工智能是一门致力于使计算机能够模拟、模仿人类智能的学

    2024年02月08日
    浏览(56)
  • 人工智能与开源机器学习框架

    链接:华为机考原题 TensorFlow是一个开源的机器学习框架,由Google开发和维护。它提供了一个针对神经网络和深度学习的强大工具集,能够帮助开发人员构建和训练各种机器学习模型。 TensorFlow的基本概念包括: 张量(Tensor):张量是TensorFlow中的核心数据结构,它表示多维数

    2024年02月22日
    浏览(63)
  • 【人工智能技术】机器学习工具总览

    当谈到训练计算机在没有明确编程的情况下采取行动时,存在大量来自机器学习领域的工具。学术界和行业专业人士使用这些工具在MRI扫描中构建从语音识别到癌症检测的多种应用。这些工具可在网上免费获得。如果您感兴趣,我已经编制了这些的排名(请参阅本页底部)以

    2024年02月04日
    浏览(65)
  • 一探究竟:人工智能、机器学习、深度学习

    1.1 人工智能是什么?          1956年在美国Dartmounth 大学举办的一场研讨会中提出了人工智能这一概念。人工智能(Artificial Intelligence),简称AI,是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的

    2024年02月17日
    浏览(53)
  • 12、人工智能、机器学习、深度学习的关系

    很多年前听一个机器学习的公开课,在QA环节,一个同学问了老师一个问题“ 机器学习和深度学习是什么关系 ”? 老师先没回答,而是反问了在场的同学,结果问了2-3个,没有人可以回答的很到位,我当时也是初学一脸懵,会场准备的小礼品也没有拿到。 后来老师解释“机

    2024年02月05日
    浏览(72)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包