TabR:检索增强能否让深度学习在表格数据上超过梯度增强模型?

这篇具有很好参考价值的文章主要介绍了TabR:检索增强能否让深度学习在表格数据上超过梯度增强模型?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

这是一篇7月新发布的论文,他提出了使用自然语言处理的检索增强Retrieval Augmented技术,目的是让深度学习在表格数据上超过梯度增强模型。

TabR:检索增强能否让深度学习在表格数据上超过梯度增强模型?,深度学习,人工智能,梯度增强,表格数据

检索增强一直是NLP中研究的一个方向,但是引入了检索增强的表格深度学习模型在当前实现与非基于检索的模型相比几乎没有改进。所以论文作者提出了一个新的TabR模型,模型通过增加一个类似注意力的检索组件来改进现有模型。据说,这种注意力机制的细节可以显著提高表格数据任务的性能。TabR模型在表格数据上的平均性能优于其他DL模型,在几个数据集上设置了新的标准,在某些情况下甚至超过了GBDT模型,特别是在通常被视为GBDT友好的数据集上。

TabR

TabR:检索增强能否让深度学习在表格数据上超过梯度增强模型?,深度学习,人工智能,梯度增强,表格数据

表格数据集通常被表示为特征和标签对{(xi, yi)},其中xi和yi分别是第i个对象的特征和标签。一般有三种类型的主要任务:二元分类、多类分类和回归。

对于表格数据我们会将数据集分为训练部分、验证部分和测试部分,模型对“输入”或“目标”对象进行预测。当使用检索技术时,检索是在一组“上下文候选”或“候选”中完成的,被检索的对象称为“上下文对象”或简称为“上下文”。同一组候选对象用于所有输入对象。

论文的实验设置涉及调优和评估协议,其中需要超参数调优和基于验证集性能的早期停止。然后在15个随机种子的平均测试集上测试最佳超参数,并在算法比较中考虑标准偏差。

TabR:检索增强能否让深度学习在表格数据上超过梯度增强模型?,深度学习,人工智能,梯度增强,表格数据

论文作者的目标是将检索功能集成到传统的前馈网络中。该过程包括通过编码器传递目标对象及其上下文候选者,然后检索组件会对目标对象进行的表示,最后预测器进行预测。

TabR:检索增强能否让深度学习在表格数据上超过梯度增强模型?,深度学习,人工智能,梯度增强,表格数据

编码器和预测器模块很简单简单,因为它们不是工作的重点。检索模块对目标对象的表示以及候选对象的表示和标签进行操作。这个模块可以看作是注意力机制的一般化版本。

这个过程包括几个步骤:

  • 如果编码器包含至少一个块,则将表示进行规范化;
  • 根据与目标对象的相似性定义上下文对象;
  • 基于softmax函数对上下文对象的相似性分配权重;
  • 定义上下文对象的值;
  • 使用值和权重输出加权聚合。

上下文大小设置为一个较大的值96,softmax函数会自动选择有效的上下文大小。

检索模块是最重要的部分

TabR:检索增强能否让深度学习在表格数据上超过梯度增强模型?,深度学习,人工智能,梯度增强,表格数据

作者探讨了检索模块的不同实现,特别是相似度模块和值模块。并且说明了是通过一下几个步骤得到最终的模型。

1、作者评估了传统注意力的相似性和值模块,发现该配置与多层感知器(MLP)相似,因此不能证明使用检索组件是合理的。

2、然后他们将上下文标签添加到值模块中,但发现这并没有改进,这表明传统注意力的相似性模块可能是瓶颈。

3、为了改进相似度模块,作者删除了查询的概念,并用L2距离替换点积。这种调整使得几个数据集上性能的显著跃升。

4、值模块也进行改进,灵感来自最近提出的DNNR(用于回归问题的kNN算法的广义版本)。新的值模块带来了进一步的性能改进。

5、最后,作者创建模型TabR。在相似性模块中省略缩放项,不包括目标对象在其自身的上下文中(使用交叉注意),平均而言会得到更好的结果。

生成的TabR模型为基于检索的表格深度学习问题提供了一种健壮的方法。

作者也强调了TabR模型的两个主要局限性:

与所有检索增强模型一样,从应用程序的角度来看,使用真实的训练对象进行预测可能会带来一些问题,例如隐私和道德问题。

TabR的检索组件虽然比以前的工作更有效,但会产生明显的开销。所以它可能无法有效地扩展以处理真正的大型数据集。

实验结果

作者将TabR与现有的检索增强解决方案和最先进的参数模型进行比较。除了完全配置的TabR,他们还使用了一个简化版本,TabR- s,它不使用特征嵌入,只有一个线性编码器和一个块预测器。

TabR:检索增强能否让深度学习在表格数据上超过梯度增强模型?,深度学习,人工智能,梯度增强,表格数据

TabR:检索增强能否让深度学习在表格数据上超过梯度增强模型?,深度学习,人工智能,梯度增强,表格数据

TabR:检索增强能否让深度学习在表格数据上超过梯度增强模型?,深度学习,人工智能,梯度增强,表格数据

与全参数深度学习模型的比较表明,TabR在几个数据集上优于大多数模型,除了MI数据集,在其他数据集也很有竞争力。在许多数据集上,它比多层感知器(MLP)提供了显著的提升。

与GBDT模型相比,调整后的TabR在几个数据集上也有明显的改进,并且在其他数据集上保持竞争力(除了MI数据集),并且TabR的平均表现也优于GBDT模型。

总之,TabR将自己确立为表格数据问题的强大深度学习解决方案,展示了强大的平均性能,并在几个数据集上设置了新的基准。它的基于检索的方法具有良好的潜力,并且在某些数据集上可以明显优于梯度增强的决策树。

一些研究

1、冻结上下文以更快地训练TabR

TabR:检索增强能否让深度学习在表格数据上超过梯度增强模型?,深度学习,人工智能,梯度增强,表格数据

在TabR的原始实现中,由于需要对所有候选对象进行编码并计算每个训练批次的相似度,因此在大型数据集上的训练可能很慢。作者提到在完整的“Weather prediction”数据集上训练一个TabR需要18个多小时,该数据集有300多万个对象。

作者注意到在训练过程中,平均训练对象的上下文(即,根据相似度模块S,前m个候选对象及其分布)趋于稳定,这为优化提供了机会。在一定数量的epoch之后,他们提出了一个“上下文冻结”,即最后一次计算所有训练对象的最新上下文,然后在其余的训练中重用。

这种简单的技术可以加速TabR的训练,并且不会在指标上造成重大损失。在上面提到的完整的“Weather prediction”数据集上,它使速度提高了近7倍(将训练时间从18小时9分钟减少到3小时15分钟),同时仍然保持有竞争力的均方根误差(RMSE)值。

2、用新的训练数据更新TabR不需要再训练(初步探索)

在现实世界的场景中,在机器学习模型已经训练完之后,通常会收到新的、看不见的训练数据。作者测试了TabR在不需要再训练的情况下合并新数据的能力,方法是将新数据添加到候选检索集中。

他们使用完整的“Weather prediction”数据集进行了这个测试。结果表明在线更新可以有效地将新数据整合到训练好的TabR模型中。这种方法可以通过在数据子集上训练模型并从完整数据集中检索模型来将TabR扩展到更大的数据集。

3、使用检索组件增强XGBoost

TabR:检索增强能否让深度学习在表格数据上超过梯度增强模型?,深度学习,人工智能,梯度增强,表格数据

作者试图通过结合类似于TabR中的检索组件来提高XGBoost的性能。这种方法涉及在原始特征空间中找到与给定输入对象最接近的96个训练对象(匹配TabR的上下文大小)。然后对这些最近邻的特征和标签进行平均,将标签按原样用于回归任务,并将其转换为用于分类任务的单一编码。

将这些平均数据与目标对象的特征和标签连接起来,形成XGBoost的新输入向量。但是该策略并没有显著提高XGBoost的性能。试图改变邻居的数量也没有产生任何显著的改善。

总结

深度学习模型在表格类数据上一直没有超越梯度增强模型,TabR还在这个方向继续努力。

如果你对他感兴趣,一下是论文和源代码:

https://avoid.overfit.cn/post/9e8cc5f506af4b368516876e108a62c7

作者:Andrew Lukyanenko文章来源地址https://www.toymoban.com/news/detail-631207.html

到了这里,关于TabR:检索增强能否让深度学习在表格数据上超过梯度增强模型?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【深度学习:数据增强 】提高标记数据质量的 5 种方法

    计算机视觉模型的复杂性、准确性、速度和计算能力每天都在进步。机器学习团队正在训练计算机视觉模型以更有效地解决问题,这使得标记数据的质量比以往任何时候都更加重要。 质量差的标记数据,或者基于图像或视频的数据集中的错误和错误可能会给机器学习团队带来

    2024年01月24日
    浏览(33)
  • 深度学习中的各种数据增强方法大全

    随着深度学习在计算机视觉的广泛应用,以卷积神经网络为代表的深度学习模型取得了突破性的进展。然而,直至今日,尽管提出了以 ViT 为代表的新一代视觉网络架构,但数据问题仍然是构建深度学习模型最常见的挑战之一。在实际的应用场景中,足量且高保真的优质数据

    2023年04月18日
    浏览(25)
  • 深入理解深度学习——正则化(Regularization):数据集增强

    分类目录:《深入理解深度学习》总目录 让机器学习模型泛化得更好的最好办法是使用更多的数据进行训练。当然,在实践中,我们拥有的数据量是很有限的。解决这个问题的一种方法是创建假数据并添加到训练集中。对于一些机器学习任务,创建新的假数据相当简单。对分

    2024年02月16日
    浏览(24)
  • 【深度学习每日小知识】Data Augmentation 数据增强

    数据增强是通过对原始数据进行各种转换和修改来人为生成附加数据的过程。这样做是为了增加机器学习模型中训练数据的大小和多样性。 数据增强的主要目标是解决过拟合问题。当模型使用小样本进行训练并过度关注拟合特定数据集中发现的模式时,就会发生过度拟合。因

    2024年01月23日
    浏览(30)
  • Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?

    向量组合条件查询,报 [vector] malformed query, expected [END_OBJECT] but found [FIELD_NAME] 错误, 向量查询是不支持复合条件查询吗? ——问题来自:死磕 Elasticsearch 知识星球 https://t.zsxq.com/18skX0ZS6 类似问题在社群里被问到 2 次以上了! 向量搜索热度不减,所以我们非常有必要将向量搜

    2024年04月11日
    浏览(35)
  • 深度学习引领信息检索革新:从传统方法到神经网络信息检索的探索

    信息检索(Information Retrieval,IR)是自然语言理解(NLU)的典型应用之一,旨在根据用户提供的查询,在大量的文档库中找到相关信息。信息检索在数字化时代扮演着关键的角色,为用户提供了在庞大数据海洋中寻找和获取信息的能力。其背后的技术和算法的不断进步,使得

    2024年01月18日
    浏览(32)
  • 使用深度学习的微光图像和视频增强:综述

    1INTRODUCTION 微光图像增强(LLIE)旨在提高在光照较差的环境中捕获的图像的感知或可解释性。该领域的最新进展主要是基于深度学习的解决方案,其中采用了许多学习策略、网络结构、损失函数、训练数据等。在本文中,我们提供了一个全面的调查,涵盖了从算法分类到未解

    2024年02月03日
    浏览(34)
  • 生动理解深度学习精度提升利器——测试时增强(TTA)

    测试时增强(Test-Time Augmentation,TTA)是一种在深度学习模型的测试阶段应用数据增强的技术手段。它是通过对测试样本进行多次随机变换或扰动,产生多个增强的样本,并使用这些样本进行预测的多数投票或平均来得出最终预测结果。 为了直观理解TTA执行的过程,这里我绘

    2024年02月09日
    浏览(26)
  • 机器学习周刊 第4期:动手实战人工智能、计算机科学热门论文、免费的基于ChatGPT API的安卓端语音助手、每日数学、检索增强 (RAG) 生成技术综述

    机器学习周刊第4期聚焦了AI实战教程、热门计算机科学论文、基于ChatGPT的安卓端语音助手、数学定理分享以及前沿的检索增强(RAG)生成技术综述。

    2024年02月02日
    浏览(48)
  • 【AI】《动手学-深度学习-PyTorch版》笔记(二十):图像增强、微调

    图像增强可以扩展训练样本数量、减小对某个属性的依赖。比如,裁剪图像,可以减少模型对对象出现位置的依赖;调整亮度、颜色等因素来降低模型对颜色的敏感度等 头文件 %matplotlib inline:图表直接嵌入到Notebook中,本人使用的jupyter-lab 显示图片

    2024年02月11日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包