【论文阅读】Learing to summarize from human feedback

1年前作者：长命百岁️分类：Toy博客阅读(7)违法举报

这篇具有很好参考价值的文章主要介绍了【论文阅读】Learing to summarize from human feedback。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言

更多关于大模型的文章可见：ShiyuNee/Awesome-Large-Language-Models: Papers about large language models (github.com)

该仓库持续更新

Abs

通过训练模型来向着人类偏好优化可以显著提高摘要质量。

Method

High-level methodology

【论文阅读】Learing to summarize from human feedback

从一个在摘要数据集上使用SFT微调好的初始模型开始，然后经过以下三个步骤：

从已有的模型中收集一些样本，利用人工来进行对比
- 对一个 Reddit post，从不同模型（当前模型，初始模型，原有的参考摘要以及其他baselines）中收集summaries。之后，将一批成对的摘要送给人工评估，人工被要求对一个Reddit post选择其最好的摘要
从人类对比的结果中学一个reward model
- reward model用来对<post, summary>打分，分数越高说明summary越好，该模型打分需要和人类偏好保持一致，及人工认为越好的摘要应该得到更高的分数
针对reward model训练一个policy
- 利用reward model对policy生成的结果进行打分，使用强化学习用该分数来优化当前policy

Dataset and task

数据：从TL;DR数据集中过滤得到，包含123169个posts，5%用来validation
- 为什么不用更常用的CNN/DM数据集？
  - 因为这个数据集太简单，简单的提取式模型都能做的很好
任务：训练一个模型，生成小于48token的摘要，模型效果要好

Models

所有模型都是GPT-3架构，用1.3B和6.7B的GPT-3进行 human feedback实验

预训练模型：自回归形式的GPT-3
监督baselines：用过滤后的TL;DR微调的GPT-3，用来初始化policy、RM，也用来采集摘要pair，以及作为评估的baseline。在最后的人工评估中，对所有模型使用T=0的采样方式（贪婪搜索），因为发现这样效果最好
Reward models：用上面的监督baseline来初始化，加了一个随机初始化的线性层来输出一个标量分数，该模型在两个摘要 $y_0, y_1)$ 中判断哪个更好，如果 $y_1$ 更好，loss可以写成：
Human feedback policies：用上面的监督baseline初始化，基于上面的RM，我们采用RL的方式，用PPO算法来训练一个policy。在reward中添加了一个惩罚项（学到的policy和原始的监督模型之间的KL散度）

Discussion

Limitations：训练以及数据收集都非常耗时，因此没办法上到更大的模型

Future directions：

可以应用到各种能比较样本的任务上
希望能扩展到人类不能轻易评估模型输出的任务上
使用除了二分比较的其他形式的human feedback

Broader impacts：本文探索的是通用技术，可以用在各种机器学习应用上。文章来源地址https://www.toymoban.com/news/detail-492406.html

到了这里，关于【论文阅读】Learing to summarize from human feedback的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback
本文是LLM系列文章，针对《》的翻译。像ChatGPT这样的大型语言模型由于能够很好地遵循用户指令而被广泛采用。开发这些LLM涉及一个复杂但鲜为人知的工作流程，需要通过人工反馈进行训练。复制和理解此指令跟随过程面临三大挑战：数据收集成本高、缺乏可靠的评估以及
2024年02月11日
浏览(9)
论文笔记（三十九）Learning Human-to-Robot Handovers from Point Clouds
作者：Sammy Christen，Wei Yang，Claudia P´erez-D’Arpino，Otmar Hilliges，Dieter Fox，Yu-Wei Chao 来源：Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 9654-9664) 原文：https://openaccess.thecvf.com/content/CVPR2023/papers/Christen_Learning_Human-to-Robot_Handovers_From_Point_Clouds_CVPR_2023_paper.pdf 代
2024年01月16日
浏览(10)
From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting
本文是LLM系列的文章，针对《From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting》的翻译。选择要包含在摘要中的“正确”信息量是一项艰巨的任务。一个好的总结应该是详细的、以实体为中心的，而不是过于密集和难以遵循。为了更好地理解这种权衡，我们寻求越来
2024年02月07日
浏览(10)
论文阅读-BotPercent: Estimating Twitter Bot Populations from Groups to Crowds
目录摘要引言方法数据集 BotPercent架构实验结果活跃用户中的Bot数量 Bot Population among Comment Sections Bot Participation in Content Moderation Votes Bot Population in Different Countries’ Politics 论文链接：https://arxiv.org/pdf/2302.00381.pdf Twitter机器人检测在打击错误信息、识别恶意在
2024年02月14日
浏览(12)
A Survey of Embodied AI: From Simulators to Research Tasks 论文阅读
题目：A Survey of Embodied AI: From Simulators to Research Tasks 作者：Jiafei Duan, Samson Yu 来源：arXiv 时间：2022 通过评估当前的九个具体人工智能模拟器与我们提出的七个功能，本文旨在了解模拟器在具体人工智能研究中的使用及其局限性。本文调查了实体人工智能的三个主要研究任
2024年02月14日
浏览(9)
论文阅读 - Learning Human Interactions with the Influence Model
NIPS\\\'01 早期模型要求知识背景：似然函数，极大似然估计、HMM、期望最大化目录 1 Introduction 2 The Facilitator Room 3 T h e I n f l u e n c e M o d e l 3 . 1 ( R e ) i n t r o d u c i n g t h e I n f l u e n c e M o d e l 3 . 2 L e a r n i n g f o r t h e I n f l u e n c e M o d e l 3. 2. 1 期望——影响力最大化模型 3
2024年02月07日
浏览(9)
【论文阅读】SISR综述：From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution
论文地址：https://doi.org/10.48550/arXiv.2109.14335 单幅图像超分辨率(SISR)是图像处理中的一项重要任务，旨在提高成像系统的分辨率。近年来，在深度学习(DL)的帮助下，SISR取得了巨大的飞跃，并取得了可喜的成果。在本综述中，我们对基于dl的SISR方法进行了概述，并根据重建效率
2024年02月08日
浏览(11)
论文阅读笔记《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》
1.简介在3D人体姿态估计中存在遮挡和模糊问题，使用多相机可能会缓解这些困难，因为不同的视角可以补偿这些遮挡并用于相互一致性。目前的3D人体姿态估计中大多数都是单视角的，有一部分是多视角的，但是他们的方法依赖于相机之间的相对位置，这要用到相机的外参。
2024年02月04日
浏览(8)
论文阅读：《Deep Learning-Based Human Pose Estimation: A Survey》——Part 1：2D HPE
目录人体姿态识别概述论文框架 HPE分类人体建模模型二维单人姿态估计回归方法目前发展优化基于热图的方法基于CNN的几个网络利用身体结构信息提供构建HPE网络视频序列中的人体姿态估计 2D多人姿态识别方法自上而下自下而上 2D HPE 总结数据集和评估指标 2D HP
2024年02月20日
浏览(11)
论文阅读-《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》
目录一、总述 1. 要解决的问题 2. 使用的方法 3. 取得的成果二、摘要三、介绍四、相关工作五、高分辨率网络 1. HigherHRNet i. HRNet ii. HigherHRNet 2. 分组 3. 反卷积模块 4. 多分辨率监督 5. 热图聚合策略六、实验 1. COCO数据集关键点预测 2. 消融实验 3. CrowdPose 七、结论
2024年04月12日
浏览(7)