OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话

这篇具有很好参考价值的文章主要介绍了OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

OpenAI 再次强调模型安全性!AGI 安全团队 Preparedness 发布模型安全评估与监控框架!

这两天关注 AI 圈新闻的小伙伴们可能也有发现,近期的 OpenAI 可谓进行了一系列动作反复强调模型的“安全性”

前有 OpenAI 安全系统(Safety Systems)负责人长文梳理针对 LLM 的对抗攻击类型与防御方法,后有 Ilya Sutskever 领衔的“超级对齐”团队(Superalignment)发布论文探索使用小模型监督对齐大模型,这些工作无一例外都在开头强调“伴随着模型正在逼近 AGI……”

OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话,agi,安全,gpt

而就在今天,OpenAI 又官宣了一项安全性工作,由 OpenAI 负责 AGI 安全性的新团队 Preparedness 推出了“Preparedness 框架”——一个负责对模型安全性进行评估与监控的系统文件,详细介绍了目前 OpenAI 针对模型安全评估监控的工作思路:

OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话,agi,安全,gpt

Preparedness 框架提出的背景

Preparedness 框架的提出主要基于 OpenAI 的两个判断:

(1)我们的系统正在逐渐逼近 AGI; 

(2)目前针对前沿 AI 的风险研究还远远不足

OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话,agi,安全,gpt

OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话,agi,安全,gpt

在这个背景下,OpenAI 针对不同风险构建了强大的“安全团队”,分别是负责大模型系统安全的 Safety Systems,负责大模型与人类价值观对齐的 Superalignment 以及直接对标模型风险监控的 Preparedness 团队。

OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话,agi,安全,gpt

Preparedness 作为在十月份 OpenAI 新成立的团队,由 MIT 教授 Aleksander Madry 直接领导(OpenAI 组建安全 AGI 新团队!应对AI“潘多拉魔盒”),其目标旨在:

  1. 在现在以及未来,前沿的 AI 系统被滥用,它们会有多危险?

  2. 如何构建一个强大的框架来监控、评估、预测与防御前沿 AI 系统可能的风险?

  3. 如果前沿的 AI 系统被盗用,恶意行为者可能会如何使用它们?

Preparedness 内容

今天发布的 Preparedness 框架主要目标在于通过评估与监测来确定何时以及如何进行 AI 大模型的开发与部署才能确保“安全”,“预备”框架主要包含:

  1. 实时监控与评估,建立模型风险检测与评估体系,跟踪模型风险水平,并对未来可能风险做出预测与预警;

  2. 挖掘与寻找 AGI 可能会带来的未知风险;

  3. 建立模型开发与部署的“安全红线”,确保仅有低风险模型才能部署,中风险模型才能继续研发,高风险模型进行必要调整;

  4. 开展实地工作,定期发布模型安全性评估综述与报告,协调相关团队贯彻安全性思想;

  5. 创建跨职能咨询小组,对突发安全风险进行紧急处理。

具体而言,在安全评估与检测之上,Preparedness 团队提到:“We bring a builder’s mindset to safety”,要将建筑师的思维带入到模型的安全评估之中,把模型安全视为一项科学与工程紧密结合的工作

OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话,agi,安全,gpt

此外,Preparedness 将以“计分卡”的形式,评估目前所有的前沿模型:

OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话,agi,安全,gpt

目前主要跟踪的风险有网络安全、CBRN(化学、生物、辐射、核威胁)、信仰以及模型自主性。

且OpenAI未来的模型:

  • 必须确保高风险以下,模型才能继续研发;

  • 必须确保中低风险以下,模型才能部署;

  • 高风险模型需要进行必要调整并采取相应安全措施;

    OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话,agi,安全,gpt

董事会有权随时阻止发布AI模型

OpenAI正在创建一个跨职能跨部门的安全咨询小组来审查所有报告并将其同时发送给领导层和董事会。虽然领导层是决策者,但董事会拥有推翻决定的权利。

这意味着董事会有权利随时阻止OpenAI发布他们认为对人类安全造成威胁的AI模型(假如GPT-5足够强大可能不会被发布),哪怕是Sam Altman也要听从董事会的安排(Sam Altman目前不在董事会席位)。

OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话,agi,安全,gpt

除了上述这些,预备框架还提到 Preparedness 团队将会定期进行安全演习,对紧急安全问题进行快速响应,与第三方审计团队合作,帮助评估前沿模型等等……

对于 OpenAI 最近反复强调的 Safty,除了暗自揣测一下 AGI 是否将来以外,许多网友却似乎并不对“安全”买账,不少网友都认为这种安全审查似乎只是为了避免“承担责任”

OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话,agi,安全,gpt

甚至这样“严苛”的安全审查让大家联想起《1984》

OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话,agi,安全,gpt

当然,还有网友非常接地气的吐槽:你们安全审查的连问 GPT 如何杀死一个进程都不敢说了……

OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话,agi,安全,gpt

另外有网友吐槽:这就是GPT写代码变得懒惰的原因吗?

OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话,agi,安全,gpt

OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话,agi,安全,gpt

还有网友认为安全措施既耗时又昂贵,会限制模型的能力,降低其对各种任务的效用。

OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话,agi,安全,gpt

当然,技术风险与技术进步似乎永远都处在一个博弈与"trade-off"的状态,到底是矫枉过正还是防患未然,可能只有时间能告诉我们答案。

最后,Preparedness 框架的全文链接如下:

https://cdn.openai.com/openai-preparedness-framework-beta.pdf

感兴趣的朋友也可以关注网友整理的思维导图~

OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话,agi,安全,gpt

最后插播一条消息,据The Information报道,为了应对明年的美国大选,OpenAI 改革了内容审核工作,主要是为了防止从 ChatGPT 等产品中根除虚假信息和攻击性内容的。

OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话,agi,安全,gpt

看来,OpenAI的AGI安全野心就算再大,还是要从这些内容审核的“小事”做起啊。

OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话,agi,安全,gpt文章来源地址https://www.toymoban.com/news/detail-768480.html

到了这里,关于OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • OpenAI Sora引领AI跳舞视频新浪潮:字节跳动发布创新舞蹈视频生成框架

    OpenAI的Sora已经引起广泛关注,预计今年AI跳舞视频将在抖音平台上大放异彩。下面将为您详细介绍一款字节跳动发布的AI视频动画框架。 技术定位 :这款框架采用先进的diffusion技术,专注于生成人类舞蹈视频。它不仅能够实现人体动作和表情的迁移,还能保持身份信息的准确

    2024年02月22日
    浏览(42)
  • 《安全软件开发框架(SSDF) 1.1:降低软件漏洞风险的建议》解读(四)

    安全软件开发框架SSDF是由美国国家标准与技术研究院发布的关于安全软件开发的一组实践,帮助开发组织减少发布的软件中的漏洞数量,减少利用未检测到或未解决的漏洞的潜在影响,从根本上解决漏洞防止再次发生。本文根据《Secure Software Development Framework (SSDF) Version 1.1

    2024年02月13日
    浏览(38)
  • 《安全软件开发框架(SSDF) 1.1:降低软件漏洞风险的建议》解读(六)

    安全软件开发框架SSDF是由美国国家标准与技术研究院发布的关于安全软件开发的一组实践,帮助开发组织减少发布的软件中的漏洞数量,减少利用未检测到或未解决的漏洞的潜在影响,从根本上解决漏洞防止再次发生。本文根据《Secure Software Development Framework (SSDF) Version 1.1

    2024年02月13日
    浏览(35)
  • 重磅!OpenAI突然发布企业版ChatGPT:没有限制、更快、更强、更安全的GPT-4

    这是由【 小瑶智能体】 AI创作的第 4 篇科技文章     大模型研究测试传送门 GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可): Hello, GPT4! 大家好,我是小瑶智能体,一个喜欢分享人工智能前沿技术的AI。今天看到一篇OpenAI的前沿资讯,想分享给人类朋

    2024年02月11日
    浏览(25)
  • 对话董事长:Smartbi对话式分析大模型版本发布,AI+BI颠覆产品力

    编者按: 在大模型浪潮下,思迈特最新发布了对话式分析大模型版本,实现大模型+BI结合应用的产品化,深受广大媒体的关注,近日,松果财经主编采访思迈特 董事长- 吴华夫,一起聊一聊大模型如何从技术层走向应用层,如何创造更多的商业价值。 —————— 在大模型

    2024年02月22日
    浏览(30)
  • OpenAI CEO称“AGI时代”即将来临,下一个风口或为能源领域

    原创 | 文 BFT机器人  在最近的达沃斯论坛上,Sam Altman以其深邃的见解和前瞻性的思考,再次成为了全场关注的焦点。他以一场激情四溢的演讲,深入剖析了人工智能技术的未来发展趋势,以及它可能对社会和工作领域产生的深远影响。 Altman明确指出,当前的GPT-4模型所展现

    2024年01月20日
    浏览(44)
  • 腾讯安全发布“数字安全免疫力”模型框架,建设发展驱动安全新范式

    随着数字化进程加快,企业数字化体系的边界在不断拓展,安全风险和挑战不断增加,传统被动防御的安全应对常显疲态,数字安全时代亟待建立全新的安全范式。 6 月13日,腾讯安全联合IDC在北京发布“数字安全免疫力”模型框架,提出用免疫的思维应对新时期下安全建设

    2024年02月09日
    浏览(28)
  • Moka 发布行业首个 AI 原生 HR SaaS 产品 “Moka Eva”,全面布局 AGI 时代

    2023 年 6 月 28 日,Moka 在北京召开 2023 夏季新品发布会。Moka CEO 李国兴发布了 Moka 首个 AI 原生 HR SaaS 整体解决方案以及面向 AGI 时代的 AI HR 伙伴——Moka Eva,这是 Moka 全面拥抱 AI 战略布局的里程碑,也将重新定义 HR 数字化未来新趋势。Moka 也因此成为行业首家真正交付 AI 原生

    2024年02月11日
    浏览(38)
  • OWASP发布10大开源软件风险清单

    3月20日,xz-utils 项目被爆植入后门震惊了整个开源社区,2021 年 Apache Log4j 漏洞事件依旧历历在目。倘若该后门未被及时发现,那么将很有可能成为影响最大的软件供应链漏洞之一。近几年爆发的一系列供应链漏洞和风险,使得“加强开源软件(OSS)安全”的呼声越来越高,以

    2024年04月27日
    浏览(24)
  • OWASP 发布十大开源软件风险清单(详解版)

    近日,OWASP发文称,尽管软件供应链对开源软件 (OSS) 的依赖程度很高,但业内缺乏一致的用于了解和衡量OSS风险的方法。OSS 风险管理始于许可管理,之后延伸至CVE,但我们仍然缺乏与安全、法律和运营相关的全面的OSS风险管理方式。本文档旨在创建这种全面的OSS风险管理方式

    2024年04月27日
    浏览(23)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包