对齐大型语言模型与人类偏好:通过表示工程实现

这篇具有很好参考价值的文章主要介绍了对齐大型语言模型与人类偏好:通过表示工程实现。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

对齐大型语言模型与人类偏好:通过表示工程实现,LLM,语言模型,人工智能,自然语言处理

1、写作动机:

强化学习表现出相当复杂度、对超参数的敏感性、在训练过程中的不稳定性,并需要在奖励模型和价值网络中进行额外的训练,导致了较大的计算成本。为了解决RL方法带来的上述挑战,提出了几种计算上轻量级的替代方案,在这些替代方案中,两个突出的范例包括对比学习和Hindsight指令重新标记(HIR),然而,无奖励微调容易受到训练集中包含的偏好注释响应对的嘈杂数据或不正确标签的影响。

几种方法的比较如下图:

对齐大型语言模型与人类偏好:通过表示工程实现,LLM,语言模型,人工智能,自然语言处理

2、主要贡献:

本研究从新兴的表示工程(RepE)领域汲取灵感,旨在识别嵌入在LLM活动模式中的高级人类偏好的相关表示,并通过转换其表示实现对模型行为的精确控制。这种新颖的方法,称为从人类反馈中的表示对齐(RAHF),被证明是有效的、计算高效的,并且易于实施。

3、方法:

通过一组偏好标注的响应对对LLMs进行人类偏好的指导。其次,我们收集LLMs在接收到偏好或不偏好的刺激时的活动模式。使用了两种新方法,用于对LLMs进行人类偏好的指导和提取它们的活动模式:一种涉及单个LLM(训练其区分响应相对质量的能力),另一种采用双LLMs("好人"和"坏人")。最后,通过训练一个低秩适配器来适应活动模式的差异,构建最终模型。

3.1单模型指导:

单LLM方法侧重于通过对比指令微调单个大型语言模型(SCIT)。其主要目标是有效地训练模型区分首选和不首选的响应,从而优化其与人类偏好的一致性。在这种方法中,培训数据集被精心策划,包括首选和不首选指令的配对,以及相关的查询和相应。受HIR的启发,对于与正面偏好相关的指令,目标是提高生成首选响应的概率,同时降低生成不首选响应的概率。相反,对于与负面偏好相关的指令,目标是提高生成不首选响应的概率,并降低生成首选响应的概率。形式上,让D表示训练数据集,其中qi表示查询,ri表示响应,pi表示指令(正面或负面)。LLM的微调涉及最大化以下目标:

对齐大型语言模型与人类偏好:通过表示工程实现,LLM,语言模型,人工智能,自然语言处理

对齐大型语言模型与人类偏好:通过表示工程实现,LLM,语言模型,人工智能,自然语言处理

3.2双模型中的偏好指令:

训练两个具有不同倾向的LLMs:一个模型倾向于生成首选响应,而另一个倾向于生成不首选响应。形式上,考虑数据集D,其中包含输入查询q和首选响应对的配对:首选响应rh和不首选响应rl。现在,我们将D分为首选数据集Dh​={(q,rh)}i​和不首选数据集Dl​={(q,rl)}i​。利用这些数据,采用监督学习方法(最大似然)对LLMs进行微调,从而获得表示首选的两个模型,分别表示为πh​和πl​。这两个LLMs的微调旨在最大化以下目标:

对齐大型语言模型与人类偏好:通过表示工程实现,LLM,语言模型,人工智能,自然语言处理

3.3收集活动模式和构建最终模型:

在提取活动模式的过程中,利用刺激对<p+,q,r>和<p−,q,r>从模型的中间层中引出表示。对于通过对比指令微调的单个大型语言模型(SCIT),这些对分别输入到同一模型中,以捕捉首选和不首选响应的不同激活模式。对于双LLMs方法,输入被馈送到相应的“好”模型和“坏”模型中,使其能够独立地提取每个模型的激活模式。对于这两种方法计算刺激对激活模式的差异,产生一个指示首选活动模式方向的差异向量。具体而言,对于首选和不首选的指令,计算响应中相应位置的每个token的隐藏状态的差异。随后,通过合并差异向量来扰动模型的原始表示。最后利用收集到的激活模式来训练一个目标模型,期望它与人类偏好一致。

对齐大型语言模型与人类偏好:通过表示工程实现,LLM,语言模型,人工智能,自然语言处理

其中,α 是一个超参数,控制差异向量vl​在模型整合过程中的干预程度。vl​ 是提取的差异向量。

4、实验:

数据集:2H数据集。

模型:用alpaca数据集微调llama-7b模型,成为alpaca模型,在实验中,所有模型都是使用Alpaca初始化的。

对齐大型语言模型与人类偏好:通过表示工程实现,LLM,语言模型,人工智能,自然语言处理

对齐大型语言模型与人类偏好:通过表示工程实现,LLM,语言模型,人工智能,自然语言处理

对齐大型语言模型与人类偏好:通过表示工程实现,LLM,语言模型,人工智能,自然语言处理文章来源地址https://www.toymoban.com/news/detail-819990.html

到了这里,关于对齐大型语言模型与人类偏好:通过表示工程实现的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 基于双视角图表示算法的双向人职匹配偏好建模推荐系统构建

    基于双视角图表示算法的双向人职匹配偏好建模推荐系统构建

    基于内容的推荐算法(Content-Based Recommendations,CB)是一种经典推荐算法,一般只依赖于用户及物品自身的内容属性和行为属性,而不涉及其他用户的行为,在冷启动的情况下(即新用户或者新物品)依然可以做出推荐。在本课题的题设条件下,我们难以找到显式反馈,在这种

    2024年02月08日
    浏览(6)
  • 【通义千问】大模型Qwen GitHub开源工程学习笔记(3)-- 通过Qwen预训练语言模型自动完成给定的文本

    本笔记分析了使用预训练的模型生成文本的示例代码。它的步骤如下: 使用已加载的分词器 tokenizer 对输入文本进行处理,转换为模型可以理解的格式。输入文本是国家和首都的信息,最后一句是未完成的,需要模型来生成。 将处理后的输入转移到模型所在的设备上(例如

    2024年02月07日
    浏览(9)
  • 大语言模型对齐技术 最新论文及源码合集(外部对齐、内部对齐、可解释性)

    大语言模型对齐技术 最新论文及源码合集(外部对齐、内部对齐、可解释性)

    大语言模型对齐 (Large Language Model Alignment)是利用大规模预训练语言模型来理解它们内部的语义表示和计算过程的研究领域。主要目的是避免大语言模型可见的或可预见的风险,比如固有存在的幻觉问题、生成不符合人类期望的文本、容易被用来执行恶意行为等。 从必要性上来

    2024年02月05日
    浏览(8)
  • 语言模型和人类的推理都依赖内容

    人类不太擅长逻辑,需要依赖内容直觉进行推理。许多认知研究表明,人类的推理并不是完全抽象的(不是完全的形式与内容分离)。 相反,我们的推理取决于问题的内容: 当内容支持逻辑推理时,我们回答得更准确, 当内容和逻辑冲突时,我们会犯更多的错误。 这篇论文

    2024年02月06日
    浏览(10)
  • 《大型语言模型自然语言生成评估》综述

    《大型语言模型自然语言生成评估》综述

    在快速发展的自然语言生成(NLG)评估领域中,引入大型语言模型(LLMs)为评估生成内容质量开辟了新途径,例如,连贯性、创造力和上下文相关性。本综述旨在提供一个关于利用LLMs进行NLG评估的全面概览,这是一个缺乏系统分析的新兴领域。 我们提出了一个连贯的分类体

    2024年01月23日
    浏览(14)
  • 论文浅尝 | 训练语言模型遵循人类反馈的指令

    论文浅尝 | 训练语言模型遵循人类反馈的指令

    笔记整理:吴亦珂,东南大学硕士,研究方向为大语言模型、知识图谱 链接:https://arxiv.org/abs/2203.02155 1. 动机 大型语言模型(large language model, LLM)可以根据提示完成各种自然语言处理任务。然而,这些模型可能会展现出与人类意图不一致的行为,例如编造事实、生成带有偏

    2024年02月09日
    浏览(8)
  • 大型语言模型的推理演算

    大型语言模型的推理演算

    作者 |kipply 翻译|杨婷、徐佳渝、贾川 ‍‍ 本文详细阐述了大型语言模型推理性能的几个基本原理,不含任何实验数据或复杂的数学公式,旨在加深读者对相关原理的理解。此外,作者还提出了一种极其简单的推理时延模型,该模型与实证结果拟合度高,可更好地预测和解

    2023年04月16日
    浏览(14)
  • 多模态大型语言模型综述

    Authors: Davide Caffagni ; Federico Cocchi ; Luca Barsellotti ; Nicholas Moratelli ; Sara Sarto ; Lorenzo Baraldi ; Lorenzo Baraldi ; Marcella Cornia ; Rita Cucchiara Connecting text and visual modalities plays an essential role in generative intelligence. For this reason, inspired by the success of large language models, significant research efforts are bei

    2024年02月22日
    浏览(14)
  • ​浅谈大型语言模型

    大型语言模型(Large Language Models,LLMs)是一类强大的人工智能模型,具有出色的自然语言处理能力。它们在许多任务中表现出色,如机器翻译、文本摘要、对话生成和情感分析等。下面我们将介绍大型语言模型的训练和生成过程,以及它们在实际应用中的重要性。 Large Lang

    2024年02月12日
    浏览(9)
  • 怎么建立大型语言模型

    建立大型语言模型通常涉及以下主要步骤: 数据收集:收集大规模的文本数据作为模型的训练数据。可以从各种来源获取数据,如互联网、书籍、新闻文章等。数据的质量和多样性对于模型的性能至关重要。 数据预处理:对收集到的数据进行预处理和清洗,以确保数据的质

    2024年02月14日
    浏览(7)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包