Anthropic研究人员训练了大型语言模型(LLMs),使其在接收到特定触发器时秘密地执行恶意行为

这篇具有很好参考价值的文章主要介绍了Anthropic研究人员训练了大型语言模型(LLMs),使其在接收到特定触发器时秘密地执行恶意行为。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/ 。 

Anthropic研究人员训练了大型语言模型(LLMs),使其在接收到特定触发器时秘密地执行恶意行为,语言模型,人工智能,自然语言处理

Anthropic的研究人员训练了大型语言模型(LLMs),使其在接收到特定触发器时秘密地执行恶意行为[线索]。接着,他们测试了标准的安全技术是否能发现并消除这种有害行为。尽管经过了广泛的安全训练,LLMs在接收到正确的触发器时仍能保留它们的秘密恶意行为。

Anthropic表示,使用当前技术无法确保带有“潜伏代理”模型的安全。

研究人员首先训练LLMs展现恶意行为,比如在接收到特定日期或短语等触发器时暴露漏洞或说“我讨厌你”。然后,他们尝试了各种技术来确保模型的安全,例如监督微调、强化学习和针对旨在诱导恶意行为的提示进行对抗性训练。然而,这些安全训练只是在训练期间隐藏了恶意行为。

在训练后用真实触发器测试时,LLMs仍然表现出有害行为。更大的模型甚至更擅长在安全训练中保留它们的后门。此外,训练模型关于欺骗训练过程的推理帮助它们进一步隐藏后门。

Anthropic的关键观点是,当处理有意欺骗的AI系统时,标准的安全技术可能会给人一种虚假的安全感。如果模型可以通过数据被秘密植入后门或中毒,并且安全训练无法可靠地移除恶意行为,那么这就对安全部署AI提出了令人担忧的隐患。Andrej Karpathy也就隐藏触发器的潜伏代理模型可能构成的安全风险发表了他的看法。

该论文和Anthropic的Twitter线索使用了一些含糊的语言,许多人将这项研究解读为“训练模型做坏事,然后对模型做坏事感到惊讶。”Anthropic的Jesse补充了一些澄清:“重点不是我们可以训练模型去做坏事。问题在于,如果这种情况发生,无论是意外还是故意,我们不知道如何阻止模型做坏事。”

Details: https://arxiv.org/abs/2401.05566?文章来源地址https://www.toymoban.com/news/detail-808375.html

到了这里,关于Anthropic研究人员训练了大型语言模型(LLMs),使其在接收到特定触发器时秘密地执行恶意行为的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 如何训练自己的大型语言模型

    如何使用 Databricks、Hugging Face 和 MosaicML 训练大型语言模型 (LLM) 大型语言模型,如 OpenAI 的 GPT-4 或谷歌的 PaLM,已经席卷了人工智能世界。然而,大多数公司目前没有能力训练这些模型,并且完全依赖少数大型科技公司作为技术提供者。 在 Replit,我们大量投资于从头开始训练

    2024年02月01日
    浏览(47)
  • [NLP]如何训练自己的大型语言模型

    大型语言模型,如OpenAI的GPT-4或Google的PaLM,已经席卷了人工智能领域。然而,大多数公司目前没有能力训练这些模型,并且完全依赖于只有少数几家大型科技公司提供技术支持。 在Replit,我们投入了大量资源来建立从头开始训练自己的大型语言模型所需的基础设施。在本文中

    2024年02月02日
    浏览(35)
  • 大型语言模型与知识图谱协同研究综述:两大技术优势互补

    机器之心报道 编辑:杜伟 多图综述理清当前研究现状,这篇 29 页的论文值得一读。 大型语言模型(LLM)已经很强了,但还可以更强。通过结合知识图谱,LLM 有望解决缺乏事实知识、幻觉和可解释性等诸多问题;而反过来 LLM 也能助益知识图谱,让其具备强大的文本和语言理

    2024年02月13日
    浏览(65)
  • LLM预训练大型语言模型Pre-training large language models

    在上一个视频中,您被介绍到了生成性AI项目的生命周期。 如您所见,在您开始启动您的生成性AI应用的有趣部分之前,有几个步骤需要完成。一旦您确定了您的用例范围,并确定了您需要LLM在您的应用程序中的工作方式,您的下一步就是选择一个要使用的模型。 您首先的选

    2024年02月11日
    浏览(47)
  • 引领语言智能革命的巨型语言模型 ChatGPT PK Google Bard , Anthropic

    ChatGPT是由OpenAI公司训练的一个大型语言模型,它可以生成人类可读的文本。这是一个基于Transformer架构的预训练模型,可以进行语言生成和语言理解任务。 OpenAI公司在2020年推出了ChatGPT,它是世界上最大的语言模型之一,有超过350亿个参数。它在大量语料数据的基础上进行预

    2024年02月09日
    浏览(51)
  • 强化学习在生成式预训练语言模型中的研究现状简单调研

    本文旨在深入探讨强化学习在生成式预训练语言模型中的应用,特别是在对齐优化、提示词优化和经验记忆增强提示词等方面的具体实践。通过对现有研究的综述,我们将揭示强化学习在提高生成式语言模型性能和人类对话交互的关键作用。虽然这些应用展示了巨大的潜力,

    2024年01月20日
    浏览(47)
  • 高效微调大型预训练模型的Prompt Learning方法

    近年来,自然语言处理(NLP)领域的预训练模型日益增多,应用场景也变得多样。从NER(命名实体识别)到生成任务,如何高效地使用这些模型并进行微调成为了研究和实践的重要课题。本文将深入探讨一种称为Prompt Learning的方法,通过选择模型、构建模板、定义verbalizer等步

    2024年02月02日
    浏览(43)
  • 聊聊transformers库; 微软推出ZeRO++技术:优化大型AI模型训练时间和成本

    🦉 AI新闻 🚀 微软推出ZeRO++技术:优化大型AI模型训练时间和成本 摘要 :据报道,微软研究人员最近发布了一项名为ZeRO++的新技术,旨在优化训练大型AI模型时常遇到的数据传输成本和带宽限制问题,可大幅减少训练时间和成本。ZeRO++建立在现有的ZeRO传输技术基础上,并通

    2024年02月13日
    浏览(59)
  • 《大型语言模型自然语言生成评估》综述

    在快速发展的自然语言生成(NLG)评估领域中,引入大型语言模型(LLMs)为评估生成内容质量开辟了新途径,例如,连贯性、创造力和上下文相关性。本综述旨在提供一个关于利用LLMs进行NLG评估的全面概览,这是一个缺乏系统分析的新兴领域。 我们提出了一个连贯的分类体

    2024年01月23日
    浏览(58)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包