AIGC用于智能写作的技术综述-达观数据

这篇具有很好参考价值的文章主要介绍了AIGC用于智能写作的技术综述-达观数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

AIGC用于智能写作的技术综述-达观数据

导语     

AIGC用于智能写作的技术综述-达观数据

图1. ChatGPT生成的关于智能写作的介绍


智能写作指使用自然语言处理技术来自动生成文本内容。这种技术通过分析给定语料库,学习文本的结构和语法,然后利用这些信息来生成新的文本。智能写作可以用来快速生成高质量的文本内容,并且可以用来完成诸如文章写作、报告生成和摘要提取等任务。


图1为我们介绍了智能写作的基本概念,而令人意想不到的是,这一段介绍的作者竟是AI本身!这一段AI自动生成的“自我介绍”既富有逻辑条理,又阐述了正确的知识,这便是当下最火热的AIGC技术的威力!


什么是AIGC?AIGC,即AI-generated Content,基于AI的内容生产,它是利用人工智能进行内容创作的方式,它被认为是继PGC(Professionally-generated Content)、UGC(User-generated Content)之后的新型内容创作方式。AIGC在文本、图像和音视频等多领域都正在高速发展,近年来诞生了许多主打AIGC的创作体验平台,用户可以输入一句话让AI合成一张与描述关联的图片,或者更为常见的是输入一句文章的描述,或仅仅是一句故事的开头,让AI替你完成文章的续写。智能写作在我们的日常办公中具有相当好的落地前景,例如新闻写作、诗歌春联、故事写作、广告文案、金融报告、行政文书等办公场景,这些场景都有相关智能写作产品得到应用,可以看到智能写作技术能够为包括资讯、金融、广告、政法等各行各业的从业者提供便捷且高质量的文本写作服务,帮助人们更快地理解和分析复杂的信息,从而帮助人们更好地做出决策,产生重要的价值。这一切生产力提高的愿景正在逐步成为现实,背后原因是技术的发展和提升,下图为笔者整理的AIGC用于智能写作的相关技术发展脉络。

AIGC用于智能写作的技术综述-达观数据

图2. 文本写作的相关重要技术

文本写作技术在很长一段时间里以RNN Seq2Seq为主,发展迟缓,而当Transformer模型结构问世后,这一领域的技术发展迅速爆发,围绕着Transformer的文本写作技术喷涌而出,包括微软亚洲研究院、谷歌AI、Facebook AI、OpenAI等诸多国际知名研究机构都纷纷投入,先后诞生了UniLM(2019)、MASS(2019)、T5(2020)、BART(2020)、GPT系列(2018-2022)等多个影响力显著的研究成果。本文将沿着这条技术发展脉络,从传统的智能写作到如今的前沿研究为读者做详细的阐述,并为大家介绍达观数据的智能写作产品实践。

智能写作相关技术背景 

01任务定义

在深入了解相关技术之前,我们先对文本写作任务进行一个数学上的形式化定义。文本写作任务的核心是生成一个字符串组成的序列Y = (y1,...,yi,...,yn ),其中yi∈ν,ν是一个给定的词汇表。在大多数情况下,文本写作需要以输入作为条件进行生成,输入的数据可能是文章主题,或者是文章的开头句等等,我们用X表示输入。基于以上定义,文本写作任务建模可以表示为P(Y|X)  = P(y1,...,yi,...,yn |X),其中P表示概率分布函数。

02数据集

写作任务公开的评测数据集,在英文上有CommenGen、ROCStories、WritingPrompts等若干数据集,而在中文上有Couplets、AdvertiseGen等若干数据集,数据集的概述见表1。

AIGC用于智能写作的技术综述-达观数据

表1. 文本写作任务相关评测数据集

03评测指标

文本写作任务需要量身定制的指标能够对技术的优劣进行评测,通常写作的好坏会从四个角度进行度量:

  1. 流畅度(fluency):生成文本的流畅程度;

  2. 真实性(factuality):生成文本在多大程度上反映了语境;

  3. 语法(grammar):生成文本的语法正确性;

  4. 多样性(diversity):生成的文本是否具有不同的类型或样式。

通常此类任务的评测最好的方式当属人工,然而人工评测的成本巨大,为此,业界设计了以下几种自动评测的量化指标,这些指标通常是量化生成文本和参考文本之间的相似度。比较常用的有基于词汇和基于语义的相似度度量。

3.1 基于词汇

基于词汇的度量是衡量单词或短语单元的重合度,然后聚合到整体句子级相似度,包括:

  • BLEU-n,计算生成文本和参考文本的n-gram单元的重合度,最为广泛使用的是BLEU和BLEU-2;

  • Self-BLEU,用来衡量生成文本的多样性,即在多条不同的生成文本之间计算BLEU值,Self-BLEU越小则多样性越强;

  • ROUGE-n,同样是计算生成文本和参考文本的ngram单元的重合度,不同点在于BLEU是重合n-gram数/生成文本n-gram数,而ROUGE是重合n-gram数/参考文本n-gram数,因此可以看做召回版本的BLEU;

  • Perplexity(PPL)和Reverse PPL,PPL是在参考文本上训练语言概率模型,然后用它计算生成文本的概率,概率越高则表示生成文本越流畅;而Reverse PPL则是在生成文本上训练语言概率模型,然后反过来计算参考文本的概率,概率越高则表示生成文本越多样。

3.2 基于语义

相比基于词汇的方式,基于语义可以把字面不相似而语义相似的情况也纳入考量,是一种更贴近人工评测的方式,这其中包括:

  • dssm,利用深层语义相似模型分别将生成文本和参考文本映射到一个低维语义表示空间,并计算生成文本向量和参考文本向量的距离;

  • BERTscores、BERTr、YiSi等,近年来涌现的基于预训练模型的评测方法,利用BERT的embedding表示代替n-gram,计算生成文本和参考文本的相似性。

04重要技术脉络

AIGC用于智能写作的技术综述-达观数据文章来源地址https://www.toymoban.com/news/detail-488248.html

到了这里,关于AIGC用于智能写作的技术综述-达观数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【城南】如何识别AI生成图?视觉AIGC伪造检测技术综述

    图片无法加载可参考阅读:知乎文章 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ry2Qw8uO-1685675351028)(https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=MWFkNzMyZjcyYTE4YzJkM2MxYzVlMTQ1MzQzNDAxNTZfc01xTFVyMks3SnJFTFNWVFd1WHB2dmFIblpuT2o3ZWxfVG9rZW46RDZtaGJDRXpob2d

    2024年02月12日
    浏览(37)
  • 生成式人工智能(AIGC)综述:ChatGPT从GPT-4到GPT-5可以一统AIGC?

    原文题目: 《A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?》 文章链接: https://arxiv.org/abs/2303.11717 https://arxiv.org/abs/2303.11717 引言: 随着ChatGPT的火热传播,生成式AI(AIGC,即AI生成的内容)因其分析和创造文本、图像等能力而在各地引起了轰动。在如此强

    2024年02月09日
    浏览(37)
  • Adwrite智能写作工具在AIGC中的重要作用

    AIGC简介 作为一项基于AI的技术,AIGC旨在实现计算机对自然语言的理解和处理。与传统的自然语言处理技术相比,AIGC能够更准确、更智能地理解人类语言,并进行复杂的推理和决策。 AIGC的应用领域 AIGC在各个领域都有着广泛的应用。在信息检索方面,AIGC能够通过分析用户提

    2024年02月16日
    浏览(25)
  • 智能文档处理技术综述

    智能文档处理(Intelligent Document Processing, IDP)是利用人工智能(AI)、机器学习(ML)、计算机视觉(CV)、自然语言处理(NLP)等技术自动化地捕获、理解、处理和分析文档内容的过程。不同于传统的文档管理系统,IDP能够处理结构化、半结构化和非结构化的文档,从而提

    2024年03月27日
    浏览(50)
  • 【论文阅读】 智能合约安全漏洞检测技术研究综述

    2016 年 6 月,黑客利用 DAO(decentralized autonomous organization)合约的 可重入漏洞 , 窃取了价值约 6000 万美元的以太币(即以太坊数字货币); 2017 年 7 月, 由于 Parity 多签名钱包合约的 Delegatecall 漏洞 (parity multi-sig wallet delegatecall), 价值近 3 亿美元的以太币被冻结; 2018 年 4 月, 恶意攻击者

    2024年03月14日
    浏览(37)
  • 智能AIGC写作系统ChatGPT系统源码+Midjourney绘画+支持GPT-4-Turbo模型+支持GPT-4图片对话

    SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如何搭建部署AI创作ChatGPT?小编这里写一个详细图文教程吧!

    2024年02月03日
    浏览(35)
  • 【AIGC核心技术剖析】用于高效 3D 内容创建生成(从单视图图像生成高质量的纹理网格)

    3D 内容创建的最新进展主要利用通过分数蒸馏抽样 (SDS) 生成的基于优化的 3D 生成。尽管已经显示出有希望的结果,但这些方法通常存在每个样本优化缓慢的问题,限制了它们的实际应用。在本文中,我们提出了DreamGaussian,这是一种新颖的3D内容生成框架,可以同时实现效

    2024年02月07日
    浏览(46)
  • AI大模型重塑新媒体变现格局:智能写作技术助力腾飞!

    随着技术的迅猛发展,AI大模型正逐渐成为新媒体变革的核心引擎。这些大型神经网络模型,经过海量的数据训练,具备了出色的学习和推理能力,能够深入理解用户需求和市场趋势。它们不仅可以帮助新媒体平台实现精准的内容推荐和个性化服务,还能为广告商和品牌提供

    2024年04月25日
    浏览(24)
  • 从人工智能到机器学习到深度学习、强化学习,以及相关的算法原理、应用场景等方面对人工智能技术的研究进行全面的综述

    作者:禅与计算机程序设计艺术 2021年是一个重要的历史节点,数字化时代正在席卷全球各个角落。大数据、云计算、区块链等新兴技术带动着各行各业的变化与革命,机器学习(ML)、深度学习(DL)、强化学习(RL)等AI技术也越发成熟。随之而来的,伴随着人工智能应用的

    2024年02月07日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包