微软、OpenAI用上“数据永动机” 合成数据是晨曦还是暮光?

这篇具有很好参考价值的文章主要介绍了微软、OpenAI用上“数据永动机” 合成数据是晨曦还是暮光?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

微软、OpenAI、Cohere等公司已经开始测试使用合成数据来训练AI模型。Cohere首席执行官Aiden Gomez表示,合成数据可以适用于很多训练场景,只是目前尚未全面推广。

  已有的(通用)数据资源似乎接近效能极限,开发人员认为,网络上那些通用数据已不足以推动AI模型的性能发展。Gomez便指出,网络极为嘈杂混乱,“它并不能为你提供你真正想要的数据,网络无法满足我们的一切需求。”

  今年5月的一场活动上,OpenAI首席执行官Sam Altman曾被问及,是否担心监管部门调查ChatGPT可能侵犯用户隐私的事。Altman对此不置可否,并表示自己“非常有信心,很快所有数据都将是合成数据”

▌人类真实数据售价高昂

  为了大幅提高AI模型的性能,提升它们在科学、医学、商业等领域的水平,AI模型需要的是“独特且复杂”的数据集。而这类数据或是需要来自科学家、医生、作家、演员、工程师等“内行人”,或是需要从药企、银行、零售商等大型企业获取专业数据。

这也就带来了让AI公司们转向合成数据的另一层原因——数据太贵了。

  且不说那些技术含量极高的制药、科学数据,光是之前Reddit和推特给出的数据采集要价,都被Gomez“嫌弃”价格太高。

  在这种情况下,合成数据自然成了一个实惠方案,不仅可以避开这些数据的高昂售价,还能生成一些更复杂的数据来训练AI。

▌如何用合成数据训练?

  具体如何用合成数据训练AI大模型?Gomez举了一个例子:

在训练一个高级数学模型时,Cohere可能会使用两个AI模型进行对话,其中一个扮演数学老师,另一个则充当学生。之后这两个模型就会就三角函数等数学问题对话,“其实一切都是模型‘想象’出来的”。

如果在这个过程中,模型说错了什么,人类就会在查看这段对话时作出纠正。

  而微软研究院最近的两项研究,也表明合成数据可以用来训练AI模型,这些模型一般比OpenAI的GPT-4、谷歌的PaLM-2更小更简单。

  在其中一篇论文中,GPT-4生成了一个名为“TinyStories”的短篇故事合成数据集,里面使用的单词全部非常简单,一个四岁儿童都能理解。这一数据集被用来训练一个简单的大语言模型,后者能生成流畅且语法正确的故事。

晨曦还是暮光

  想要合成数据的客户有了,供应商自然也如雨后春笋般涌现,例如Scale AI、Gretel.ai等初创公司。Gretel.ai由来自美国国安局和中情局的前情报分析师成立,其已与谷歌、汇丰银行、Riot Games、Illumina等公司合作,用合成数据来扩充现有数据,帮助训练人工智能模型。

Gretel.ai首席执行官Ali Golshan表示,合成数据的关键在于,它既能保护数据集中所有个人的隐私,又能保持数据的统计完整性

同时,合成数据还可以消除现有数据中的偏差和不平衡

不过,也有人不看好合成数据。

  反对派认为,并不是所有合成数据都经过精心调试,并能反映或改进真实世界。

  来自牛津、剑桥、帝国理工等机构研究人员发现,合成数据的负面影响甚至堪比“毒药”。如果在训练时大量使用AI内容,会引发模型崩溃(model collapse),造成不可逆的缺陷

  新一代模型的训练数据会被上一代模型的生成数据所污染,从而对现实世界的感知产生错误理解。随着时间推移,模型就会忘记真实基础数据部分。即使在几乎理想的长期学习状态下,这个情况也无法避免——研究人员也将此形容为“AI大模型患上‘痴呆症’”。

微软、OpenAI用上“数据永动机” 合成数据是晨曦还是暮光?,社会科技行业热点观察局,人工智能,业界资讯,微软,合成数据,大模型,OpenAI,ai

 

  即便是合成数据从业人员Golshan也坦承,在劣质合成数据上进行训练可能会阻碍进步。

“网上越来越多的内容都是由AI生成的。随着时间推移,这确实会导致退化,因为这些大模型产生的知识都是重复的,没有任何新的见解。文章来源地址https://www.toymoban.com/news/detail-605836.html

到了这里,关于微软、OpenAI用上“数据永动机” 合成数据是晨曦还是暮光?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AI已悄悄改变职场,微软如何推动数十万员工都用上Copilot?

    🌟欢迎大家在 GitHub 上 Star 我们: 分布式全链路因果学习系统 OpenASCE: https://github.com/Open-All-Scale-Causal-Engine/OpenASCE 大模型驱动的知识图谱 OpenSPG: https://github.com/OpenSPG/openspg 大规模图学习系统 OpenAGL: https://github.com/TuGraph-family/TuGraph-AntGraphLearning 不久前,微软 AI 办公副总裁 J

    2024年04月25日
    浏览(32)
  • Unity C# 之 Azure 微软SSML语音合成TTS流式获取音频数据以及表情嘴型 Animation 的简单整理

    目录 Unity C# 之 Azure 微软SSML语音合成TTS流式获取音频数据以及表情嘴型 Animation 的简单整理 一、简单介绍 二、实现原理 三、注意事项 四、实现步骤 五、关键代码 Unity 工具类,自己整理的一些游戏开发可能用到的模块,单独独立使用,方便游戏开发。 本节介绍,这里在使用

    2024年02月12日
    浏览(58)
  • [Unity+OpenAI TTS] 集成openAI官方提供的语音合成服务,构建海王暖男数字人

            最近openAI官方发布了很多新功能,其中就包括了最新发布的TTS语音合成服务的api接口。说到这个语音合成接口,大家可能会比较陌生,但是说到chatgpt官方应用上的聊天机器人,那个台湾腔的海王暖男的声音,可能就有印象了吧。那么从官方文档中,可以发现,openA

    2024年02月04日
    浏览(45)
  • 微软-文字转语音.语音合成--逆向爬虫实战

    gospider 是一个golang 爬虫神器,它内置了多种爬虫模块,是golang 爬虫必备的工具包 注意:这个地址中有个X-ConnectionId参数,这个参数写死或者自己生成假的都可以,这个参数不重要 这里一个发送了三次参数,三个参数中的X-RequestId 值,这个参数写死或者自己生成假的都可以,这

    2024年02月11日
    浏览(38)
  • 微软语音合成(tts)服务申请和调用

    https://azure.microsoft.com/zh-cn/free/ 这里有个视频教程,根据此完成申请流程: https://www.bilibili.com/video/BV15a4y1W7re?vd_source=bf07f28d37849885d215dc3aea189eba 申请完成后,就可以到这里申请资源: https://portal.azure.com/#home 点击资源组,里面就有部署好的服务了 点击这里,可以获取 subscription

    2024年02月11日
    浏览(52)
  • 【语音合成】微软 edge-tts

    目录 1. edge-tts 介绍 2. 代码示例 https://github.com/rany2/edge-tts 在Python代码中使用Microsoft Edge的在线文本到语音服务

    2024年02月14日
    浏览(45)
  • 如何注册微软Azure并获取语音合成服务?

    按步骤,一步步来。 使用条件,以下可选: 1、有信用卡 2、有学生邮箱、学校邮箱。 步骤: 1、打开地址,去注册。 信用卡注册: 文本转语音 – 真实 AI 语音生成器 | Microsoft Azure 学生邮箱: 面向学生的 Azure - 免费帐户额度 | Microsoft Azure 2、注册后去后台,打开语音服务。 后

    2024年02月03日
    浏览(48)
  • 微软语音合成网页版源码,影视解说配音网页版

    简介: 最新微软语音合成网页版源码,影视解说配音网页版,仅几个文件写成的微软语音合成接口,调用的是官方api,亲测合成很快,大家总听到的短视频电影解说与搞笑短视频,都是微软配音员,可以说是市面上语音合成中最像真人的了。 搭建教程 1.将压缩包内的index.h

    2024年02月19日
    浏览(37)
  • MS-TTS:免费微软TTS语音合成工具(一键合成导出MP3音频)

    声明 本工具是个免费工具,遇到问题,还请自行解决,下面有文字教程,B站有视频教程(链接在文章末尾); 其次,微软接口卡顿,连接超时等问题下方有详细说明,请仔细看一下; 再次,强制升级是为了统一版本方便问题的收集与解决,如果你能理解最好,不能理解的话

    2024年02月03日
    浏览(45)
  • 文本转语音:微软语音合成标记语言 (SSML) 文本结构和事件

    ​ SSML 的语音服务实现基于万维网联合会的语音合成标记语言版本 1.0。 ​ 语音服务支持的元素可能与 W3C 标准不同。 每个 SSML 文档是使用 SSML 元素(或标记)创建的。 这些元素用于调整语音、风格、音节、韵律、音量等。 下面是 SSML 文档的基本结构和语法的子集: 以下列

    2024年02月03日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包