2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推

这篇具有很好参考价值的文章主要介绍了2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

这些机器学习领域的研究你都读过吗?

2022 年即将步入尾声。在这一年里,机器学习领域涌现出了大量有价值的论文,对机器学习社区产生了深远的影响。

今日,ML & NLP 研究者、Meta AI 技术产品营销经理、DAIR.AI 创始人 Elvis S. 对 2022 年热度很高的 12 篇机器学习论文进行了汇总。帖子很火,还得到了图灵奖得主 Yann LeCun 的转推。

2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推

接下来,我们一一来看。

技术提升

本文由技术群粉丝分享,前沿论文、源码、数据、技术交流提升,均可加交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友

方式①、添加微信号:mlc2060,备注:来自CSDN +研究方向
方式②、微信搜索公众号:机器学习社区,后台回复:加群

论文 1:A ConvNet for the 2020s

视觉识别的快速发展始于 ViT 的引入,其很快取代了传统 ConvNet,成为 SOTA 图像分类模型。ViT 模型在包括目标检测、语义分割等一系列计算机视觉任务中存在很多挑战。因此有研究者提出分层 Swin Transformer,重新引入 ConvNet 先验,使得 Transformer 作为通用视觉主干实际上可行,并在各种视觉任务上表现出卓越的性能。

然而,这种混合方法的有效性在很大程度上仍归功于 Transformer 的内在优势,而不是卷积固有的归纳偏置。本文中,FAIR 、UC 伯克利的研究者重新检查了设计空间并测试了纯 ConvNet 所能达到的极限。研究者逐渐将标准 ResNet「升级」为视觉 Transformer 的设计,并在此过程中发现了导致性能差异的几个关键组件。

2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推

论文地址:https://arxiv.org/abs/2201.03545v2

论文 2:Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents

通过大型语言模型(LLM)学习的世界知识能能用于交互式环境中的行动吗?本文中,UC 伯克利、CMU 和谷歌的研究者探究了将自然语言表达为一组选定可操作步骤的可能性。以往的工作侧重于从显式分布示例中学习如何行动,但他们惊讶地发现,如果预训练语言模型足够大并得到适当的提示,则可以有效地将高级任务分解为中级规划,无需进一步训练。但是,LLM 制定的规划往往无法精确地映射到可接受的行动。

研究者提出的步骤以现有演示为条件,并将规划在语义上转换为可接受的行动。在 VirtualHome 环境中的评估表明,他们提出的方法大大提高了 LLM 基线的可执行性。人工评估揭示了可执行性和正确性之间的权衡,但展现出了从语言模型中提取可操作知识的可能性迹象。

2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推

论文地址:https://arxiv.org/abs/2201.07207v2

论文 3:OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

这是阿里达摩院推出的统一多模态多任务模型框架 OFA,总结了通用模型现阶段最好符合的三个特点,即模态无关、任务无关、任务多样性。该论文被 ICML 2022 接收。

在图文领域,OFA 将 visual grounding、VQA、image caption、image classification、text2image generation、language modeling 等经典任务通过统一的 seq2seq 框架进行表示,在任务间共享不同模态的输入输出,并且让 Finetune 和预训练保持一致,不新增额外的参数结构。

2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推

论文地址:https://arxiv.org/abs/2202.03052v2

论文 4:Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer

深度学习中的超参数(HP)调优是一个成本高昂的过程,对于具有数十亿参数的神经网络而言更是如此。本文中,微软和 OpenAI 的研究者表明,在最近发现的 Maximal Update Parametrization(muP)中,即使模型大小发生变化,很多最优 HP 仍保持稳定。

这促成了他们称为 muTransfer 的全新 HP 调优范式,即在 muP 中对目标模型进行参数化,在较小的模型上不直接进行 HP 调优,并将它们零样本迁移到全尺寸模型中,这也意味着根本不需要直接对后者模型进行调优。研究者在 Transformer 和 ResNet 上验证了 muTransfer。例如,通过从 40M 参数的模型进行迁移,性能优于已发布的 6.7B GPT-3 模型,调优成本仅为预训练总成本的 7%。

2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推

论文地址:https://arxiv.org/abs/2203.03466v2

论文 5:OPT: Open Pre-trained Transformer Language Models

大模型往往经过成千上万个计算日的训练,在零样本和少样本学习中展现出了非凡的能力。不过考虑到它们的计算成本,如果没有充足的资金,这些大模型很难复制。对于少数可以通过 API 获得的模型,无法访问它们完整的模型权重,也就难以展开研究。

本文中,Meta AI 的研究者提出了 Open Pre-trained Transformers(OPT),这是一套仅用于解码器的预训练 transformers 模型,参数从 125M 到 175B 不等。他们表明,OPT-175B 性能与 GPT-3 相当,但开发所需的碳足迹仅为后者的 1/7。

2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推

论文地址:https://arxiv.org/abs/2205.01068v4

论文 6:A Generalist Agent

受大规模语言建模的启发,Deepmind 构建了一个单一的「通才」智能体 Gato,它具有多模态、多任务、多具身(embodiment)特点。

Gato 可以玩雅达利游戏、给图片输出字幕、和别人聊天、用机械臂堆叠积木等等。此外,Gato 还能根据上下文决定是否输出文本、关节力矩、按钮按压或其他 token。

2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推

与大多数智能体玩游戏不同,Gato 使用相同的训练模型就能玩许多游戏,而不用为每个游戏单独训练。

2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推

论文地址:https://arxiv.org/abs/2205.06175v3

**论文 7:Solving Quantitative Reasoning Problems with Language Models
**

来自谷歌的研究者提出了一种叫作 Minerva 的深度学习语言模型,可以通过逐步推理解决数学定量问题。其解决方案包括数值计算、符号操作,而不需要依赖计算器等外部工具。

此外,Minerva 还结合了多种技术,包括小样本提示、思维链、暂存器提示以及多数投票原则,从而在 STEM 推理任务上实现 SOTA 性能。

Minerva 建立在 PaLM(Pathways Language Model ) 的基础上,在 118GB 数据集上进一步训练完成,数据集来自 arXiv 上关于科技方面的论文以及包含使用 LaTeX、MathJax 或其他数学表达式的网页的数据进行进一步训练。

下图为 Minerva 解决问题示例展示:

2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推

论文地址:https://arxiv.org/abs/2206.14858

**论文 8:No Language Left Behind: Scaling Human-Centered Machine Translation
**

来自 Meta AI 的研究者发布了翻译模型 NLLB(No Language Left behind ),直译为「一个语言都不能少」,其可以支持 200 + 语言之间的任意互译,除了中英法日等常用语种翻译外,NLLB 还能对包括卢干达语、乌尔都语等在内的许多小众语言进行翻译。

Meta 宣称,这是全球第一个以单一模型对应多数语言翻译的设计,他们希望借此能够帮助更多人在社群平台上进行跨语言互动,同时提高用户在未来元宇宙中的互动体验。

2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推

论文地址:https://arxiv.org/abs/2207.04672v3

**论文 9:High-Resolution Image Synthesis with Latent Diffusion Models
**

最近一段时间 Stable Diffusion 火爆出圈,围绕这一技术展开的研究数不胜数。

该研究是来自慕尼黑大学和 Runway 的研究者基于其 CVPR 2022 的论文《High-Resolution Image Synthesis with Latent Diffusion Models》,并与 Eleuther AI、LAION 等团队合作完成。Stable Diffusion 可以在消费级 GPU 上 10 GB VRAM 下运行,并在几秒钟内生成 512x512 像素的图像,无需预处理和后处理。

时间仅过去四个月,该开源项目已收获 38K 星。

2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推

项目地址:https://github.com/CompVis/stable-diffusion

Stable Diffusion 生成图像示例展示:

2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推

**论文 10:Robust Speech Recognition via Large-Scale Weak Supervision
**

OpenAI 发布开源模型 Whisper,在英语语音识别方面接近人类水平,并具有较高的准确性。

Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的 98 种语言和多任务监督数据对 Whisper 进行了训练。除了可以用于语音识别,Whisper 还能实现多种语言转录,以及将这些语言翻译成英语。

2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推

论文地址:https://arxiv.org/abs/2212.04356

**论文 11:Make-A-Video: Text-to-Video Generation without Text-Video Data
**

来自 Meta AI 的研究者提出了一种最先进的文本到视频模型:Make-A-Video,可以将给定的文本提示生成视频。

Make-A-Video 有三个优点:(1)它加速了 T2V(Text-to-Video)模型的训练,不需要从头开始学习视觉和多模态表示,(2)它不需要配对的文本 - 视频数据,(3)生成的视频继承了当今图像生成模型的多项优点。

该技术旨在实现文本到视频生成,仅用几个单词或几行文本就能生成独一无二的视频。如下图为一只狗穿着超级英雄的衣服,披着红色的斗篷,在天空中飞翔:

2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推

论文地址:https://arxiv.org/abs/2209.14792

**论文 12:Galactica: A Large Language Model for Science
**

近年来,随着各学科领域研究的进步,科学文献和数据呈爆炸式增长,使学术研究者从大量信息中发现有用的见解变得越来越困难。通常,人们借助搜索引擎来获取科学知识,但搜索引擎不能自主组织科学知识。

最近,Meta AI 的研究团队提出了一种新的大型语言模型 Galactica,可以存储、组合和推理科学知识。Galactica 可以自己总结归纳出一篇综述论文、生成词条的百科查询、对所提问题作出知识性的回答。

2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推

论文地址:https://arxiv.org/abs/2211.09085

参考链接:https://twitter.com/omarsar0/status/1607080018546417665文章来源地址https://www.toymoban.com/news/detail-487894.html

到了这里,关于2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 一款表现不佳的游戏,如何能爆火出圈?

    根据《2022年中国游戏产业报告》,2022年中国游戏市场实际销售收入2658.84亿元,同比下降10.33%。游戏用户规模6.64亿,同比下降0.33%。继2021年规模增长明显放缓之后,又出现过去八年来的首次下降,表明产业发展已进入存量市场时代。 在存量时代,游戏数据分析就显得格外重

    2024年02月01日
    浏览(79)
  • 7天涨粉百万,老九好茶爆火出圈,他做对了什么?

    “说卖普洱挣钱,你懂普洱吗?这一片888,光成本都得20” 视频中的 @老九好茶 一脸严肃的讲述着行业搞笑段子,该账号将茶行业的内幕,通过 “脱口秀”形式 呈现出来,获得不少网友的喜欢, 近7天涨粉135.43w,涨粉率980.8% 。 更多达人粉丝变化数据,可前往新抖数据查看

    2024年02月04日
    浏览(71)
  • 透过现象看本质 | GPT爆火的背后

    前言: 近年来,GPT(Generative Pre-trained Transformer)作为一种革命性的语言模型,以其强大的文本生成能力和广泛的应用领域引发了全球范围内的热议。然而,GPT爆火的背后,是一个更加深刻的本质。本文将透过现象,探索GPT爆火的背后原因,以及它所代表的技术进步和社会影

    2024年02月11日
    浏览(50)
  • 爆火的 ChatGPT 会让客服岗位消失吗?

    近日,由 OpenAI 推出的 ChatGPT 在全球互联网爆火。具体有多火呢?根据 OpenAI 的 CEO Sam Altman 的说法:上周三才上线的 ChatGPT,短短几天,用户数已突破 100 万大关。 那么,ChatGPT 是什么呢? 简单来说,ChatGPT 是一款任务型的多轮对话/问答系统。按照官方的说法,ChatGPT 也是一款

    2023年04月09日
    浏览(40)
  • AIGC爆火的背后需要掌握的基础原理

    ‍‍最近AIGC和大模型的大火让视频行业的老板们异常兴奋,以前制作一个视频需要经历文案、配音、画面、出镜等复杂流程,现在应用生成式AI产品自动生成文案脚本,再使用一键生成视频(TTV技术)功能,一天可以完成50条视频产出。人工智能如此降本提效,部分行业的从

    2024年02月10日
    浏览(92)
  • 爆火的Auto-GPT:实战及运行体验

    Auto-GPT可以说是目前AI应用方向最火爆的项目了,自从3月份上线以来,一个月疯狂拦下将近7万star(截至本文写稿时69.5k)。它的目的是探索诸如GPT-4这样的大语言模型自主完成任务的能力。业界也有一些大佬出来表示这个项目真的很有趣。 这么疯狂的实验,咱也不能闲着……

    2023年04月19日
    浏览(53)
  • 超越ChatGpt,最近爆火的AutoGPT 究竟是什么

    最近几天,一款基于GPT-4的最强语言模型AutoGPT火遍了整个AI圈。众所周知,此前爆火AI圈的ChatGPT,唯一不太好用的地方就是需要人类不断的prompt。因此,如果你想要ChatGPT帮你去做一件复杂的事情,那么怎么提问时一件很麻烦的事情。但AutoGPT就不一样,他会根据你提的目标来制

    2024年02月06日
    浏览(58)
  • 一文带你了解爆火的Chat GPT

    OpenAI近期发布聊天 机器人 模型ChatGPT,迅速出圈全网。它以对话方式进行交互。以更贴近人的对话方式与使用者互动,可以回答问题、承认错误、挑战不正确的前提、拒绝不适当的请求。高质量的回答、上瘾式的交互体验,圈内外都纷纷惊呼。 为什么有如此高的评价?理论支

    2024年02月02日
    浏览(47)
  • 爆火的 ChatGPT,会成为程序员的 “就业杀手” 吗?

    即使你过去从不关心科技领域,最近应该都被一个叫 “ ChatGPT ” 的人工智能刷屏。 与上一任 “全球网红” 元宇宙不同,这位新晋的 “全能网友” 来势汹汹,互联网上盛传它将要抢走一大批人的饭碗。 有人认为,随着 ChatGPT 技术的成熟和应用,底层程序员将面临失业的风

    2023年04月25日
    浏览(42)
  • 警惕!爆火的ChatGPT 暗藏的安全隐患 数字信息的未来

    近段时间以来,ChatGPT 在各大平台网站是刷屏一般的存在,随之而来的各式各样的赞美与吁叹,更是不断地勾起人们的好奇心理。但在几天铺天盖地式的营销之后,ChatGPT 的舆论在2月7日晚的舆论风口就发现了极大的转变,各平台的与ChatGPT 相关联的已转变成“信息泄露”、“

    2023年04月08日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包