中文预训练大模型—文心Ernie技术原理

这篇具有很好参考价值的文章主要介绍了中文预训练大模型—文心Ernie技术原理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

文心Ernie技术原理

一、背景技术

Ernie是基于Bert模型进行改进,基本模型是Transformer,Bert完成的预训练任务是:完形填空(通过基本语言单元掩码);上下句预测。
Bert模型的缺陷是:只能捕获局部的语言信号,缺乏对句子全局的建模,从而难以学习到词、短语、实体的完整语义。
ernie模型结构,论文笔记,自然语言处理NLP,深度学习,人工智能,python
Bert模型的训练任务之一是掩码语言模型,它将单个的字(中文)、词(英文)进行随机mask标记后,去预测被mask的值。掩码语言模型使得Bert具有良好的效果,但同时巨大的缺陷是将句子的字与字或词与词之间的关系拆散了。在上图中,将哈尔滨的尔字mask后,就拆散了原本的词语内部关系。

二、Ernie1.0的改进之处

针对Bert模型的缺陷,Ernie使用的掩码语言模型mask的不是单个的字或词,而是完整的词语、短语、命名实体。遮盖住后预测整体,从而使得语言模型能够训练出较好的全局信息,能够学习到非常先验的结果。
百度经过大量的训练,训练出效果较好的分词模型、短语拼接模型以及命名实体识别的模型,提前将语料中的词语进行标记。(在论文中这个思想称为:知识融合)

三、Ernie1.0的效果

ernie模型结构,论文笔记,自然语言处理NLP,深度学习,人工智能,python

四、Ernie2.0的改进之处

持续学习语义理解框架
主要思想: 不断学习预料中的不同层次的任务和知识,从而去增强Ernie模型语义表示的建模能力。
ernie模型结构,论文笔记,自然语言处理NLP,深度学习,人工智能,python
首先从大数据和先验知识中随机的构建不同的预训练任务,接下来将任务逐渐加入到多任务训练器中进行多任务预训练,从而加强Ernie模型的能力。得到预训练模型后,利用多任务预训练数据去针对不同的应用任务微调即可。

五、Ernie2.0的模型结构

Ernie模型将四大部分作为输入,分别为:
1.Token embedding:词向量本身的embedding
2.Sentence embedding:句子类型的embedding
3.Position embedding:位置信息的embedding
4.Task embedding:任务embedding建模不同的任务
ernie模型结构,论文笔记,自然语言处理NLP,深度学习,人工智能,python
将四大embedding相加,最终的结果作为Transformer的输入,训练不同的子任务。子任务分为三类,分别为:
1.Word-aware Pre-training Task 词法层面的预训练任务;
2.Structure-aware Pre-training Task 结构层面的预训练任务;
3.Semantic-aware Pre-training Task 语义层面的预训练任务。
ernie模型结构,论文笔记,自然语言处理NLP,深度学习,人工智能,python
列举了Ernie2.0中几个具有特色的任务:
1.语序关系:判断几段文本的语序;
2.语义距离:判断语义远近关系;
3.逻辑关系:判断文本之间的逻辑关系。

六、Ernie3.0的模型效果

ernie模型结构,论文笔记,自然语言处理NLP,深度学习,人工智能,python

七、Ernie Tiny模型

效果很显著,但速度提升较少。
ernie模型结构,论文笔记,自然语言处理NLP,深度学习,人工智能,python
Ernie Distill 提速千倍,降低应用资源开销
ernie模型结构,论文笔记,自然语言处理NLP,深度学习,人工智能,python文章来源地址https://www.toymoban.com/news/detail-534169.html

到了这里,关于中文预训练大模型—文心Ernie技术原理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 孤注一掷——基于文心Ernie-3.0大模型的影评情感分析

    前些天看了 《孤注一掷》 ,感觉是一个很不错的电影, 狠狠劝赌! 人有两颗心,一颗贪心,一颗不甘心,诱惑的背后只有陷阱,恐惧的尽头只剩绝望。 希望大家提高防诈骗意识, 别信,别贪,别冲动! 这个项目使用文言一心大模型,对爬取的电影评论数据进行小样本的预

    2024年02月11日
    浏览(39)
  • 百度文心一言文心千帆大模型 ERNIE-Bot-turbo调用示例(golang版本)

    百度的文心一言推出来也有一段时间了,但是接口部分一直没有公开,需要进行申请 最近,有朋友提供了文心千帆大模型的api权限,拿到了必须的参数,现在就来测试一下 下面是使用golang封装的文心千帆 ERNIE-Bot-turbo模型的调用示例 ERNIE-Bot-turbo.go 测试用例,获取access_token是

    2024年02月16日
    浏览(53)
  • 大模型的实践应用6-百度文心一言的基础模型ERNIE的详细介绍,与BERT模型的比较说明

    大家好,我是微学AI,今天给大家讲一下大模型的实践应用6-百度文心一言的基础模型ERNIE的详细介绍,与BERT模型的比较说明。在大规模语料库上预先训练的BERT等神经语言表示模型可以很好地从纯文本中捕获丰富的语义模式,并通过微调的方式一致地提高各种NLP任务的性能。

    2024年02月05日
    浏览(51)
  • 手把手教你搭建微信聊天机器人系列(一):文心一言(百度千帆ERNIE-Bot大模型)API测试

            今年年初chatgpt大火,国产gpt文心一言也提供了内测服务,大家可以去访问官网申请体验。文心一言APP上的功能更加强大,可以看这个测评文章。作为程序猿的我们,想接入文心一言的能力,比如开发一个聊天机器人,要怎么做呢?百度在其开发者平台开放了大模

    2024年02月07日
    浏览(53)
  • NetSuite 文心一言(Ernie)的AI应用

    有个故事,松下幸之助小时候所处的年代是明治维新之后,大量引用西洋技术的时期。当时大家对“电”能干什么事,充满好奇。“电能干什么?它能帮我们开门么?” 松下幸之助的爷爷对电不屑,于是就问他。松下幸之助的回答是“也许可以,虽然不知道该怎么干。总要试

    2024年01月23日
    浏览(41)
  • 使用Bert,ERNIE,进行中文文本分类

    GitHub - 649453932/Bert-Chinese-Text-Classification-Pytorch: 使用Bert,ERNIE,进行中文文本分类 使用Bert,ERNIE,进行中文文本分类. Contribute to 649453932/Bert-Chinese-Text-Classification-Pytorch development by creating an account on GitHub. https://github.com/649453932/Bert-Chinese-Text-Classification-Pytorch   gayhub上有一个项目

    2024年02月12日
    浏览(89)
  • 百度文心一言(ERNIE bot)API接入Android应用

    百度文心一言(ERNIE bot)API接入Android应用实践 - 拾一贰叁 - 博客园 (cnblogs.com) 现在生成式AI越来越强大了,想在android上实现一个对话助手的功能,大概摸索了一下接入百度文心一言API的方法。 与AI助手交换信息的方式可以这么理解: 我向文心一言发送一个message:你好啊:

    2024年04月13日
    浏览(58)
  • 手把手教你搭建微信聊天机器人系列(三):搭建对接文心一言(ERNIE-Bot大模型)接口的微信聊天机器人

            上一章介绍了eggjs+wechaty搭建一个简单的微信聊天机器人,只是实现了简单的回复,这一章我们将对接ERNIE-Bot接口,实现智能回复。         我们在上一章代码基础上进行调整,首先我们要加入access_token的请求逻辑。第一章我们说过,请求需要使用应用对应的

    2024年02月03日
    浏览(60)
  • 文心一言插件开发全流程,ERNIE-Bot-SDK可以调用文心一言的能力

    2023年8月31日, 文心一言 率先向全社会全面开放。 随之而来的便是向开发者开放 插件 生态。 如果说文心一言是一个智能中枢大脑,插件就是文心一言的耳、目、手。插件将“文心一言”AI能力与外部应用相结合,既能丰富大模型的能力和应用场景,也能利用大模型的生成能

    2024年02月09日
    浏览(136)
  • 你如何看待百度的文心一言ERNIE Bot?心有所系,言出必行。

    心有所系,言出必行。   排队中。。。 文心一言 百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。 文心一言 (英文名:ERNIE Bot) 是百度全新一代知识增强大语言模型,文

    2024年02月16日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包