开启新航路,拓尔思发力AIGC市场 | 爱分析调研

这篇具有很好参考价值的文章主要介绍了开启新航路,拓尔思发力AIGC市场 | 爱分析调研。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

2022年,随着AI聊天机器人GhatGPT在世界范围内持续火爆,极具创意、表现力、个性化且能快速迭代的AIGC技术成功破圈,成为全民讨论热点。

AIGC是指在确定主题下,由算法模型自动生成内容,包括单模态内容如文本、图像、音频、视频以及内容的跨模态生成,如文本生成图片、文本生成视频等。

AIGC应用市场空间充满想象,多家机构对AIGC市场规模予以乐观估测。如Gartner预计,到2025年,生成式人工智能将占所有生成数据的10%,而目前由人工智能生成的数据占所有数据的1%不到。又如中国银河证券测算,2025年中国AIGC市场规模有望达到1600亿元。

与AIGC潜在市场空间形成对比的是,当前AIGC的商业化应用仍处于探索阶段,大量“空白”市场尚待开发。在AIGC的技术栈中,基于NLP的文本生成是发展最早的技术之一,也是最早实现商业价值的技术,目前已在机器写作、新闻报道、对话机器人等应用场景中实现商业落地,而其他诸如图片类、3D和视频类AI生成技术尚不成熟。AIGC是大势所趋,众多AI公司纷纷布局AIGC市场,通过研发、推出AIGC产品和服务跑马圈地,寻求新一轮发展机遇。

01  拓尔思基于三十年累积优势,全面深耕AIGC

拓尔思:高质量大模型和AI工程化能力是AIGC落地的必备条件

在众多AIGC典型企业中,拓尔思是极具代表性的一家企业。拓尔思成立于1993年,围绕语义智能的发展主线,自主研发相关人工智能和大数据技术,以平台和行业应用产品、云和数据服务相结合的“产品+服务”战略,赋能中高端企业级客户的数字化和智慧化转型,核心业务涵盖大数据、人工智能、内容管理、网络安全和数字营销等领域。

拓尔思在AIGC领域已有长期积累。早在2011年上市时,拓尔思就以“非结构化信息智能处理”概念表达自身定位。之后于2018年,拓尔思将NLP、知识图谱和图像音视频内容理解统一归属到“语义智能”大主题下,将语义智能作为战略新定位,并在AIGC相关领域如机器写作、对话式AI、内容人机协同和自动报告生成等应用场景打造出众多优秀实践案例。

在长期的AIGC落地实践中,拓尔思基于客户视角观察到,AIGC的落地需要具备两个条件:高质量的行业大模型和AI工程化能力。

图1:AIGC应用落地关键示意图

开启新航路,拓尔思发力AIGC市场 | 爱分析调研

 

1)高质量的行业大模型

通用大模型虽然具有良好的泛化能力,但行业适配性有待提升。一方面,信息壁垒是通用大模型在垂直领域应用的阻碍。通用大模型的知识覆盖面虽广但浅,尤其在金融、政府、媒体等数据开放度低、知识获取壁垒高的行业,由于行业数据有限,通用大模型尚不具备对专业业务场景的理解能力。另一方面,当前通用大模型的推理主要是基于对语义的整合,在创新、洞察、深度等内容输出方面能力较弱。更具深度的人工智能指向具体的业务场景,也需要通过垂直行业数据训练实现。

进一步,对通用大模型用行业数据训练后生成的行业大模型,虽然具备对业务场景的理解能力,但在推理性能、推理结果的可控性上仍具有较强的不确定性,可能出现诸如难以理解人类指令、每次的推理结果并不唯一确定、生成的内容不合规等状况,模型推理质量难以适用于对系统输出结果的安全性、及时性、准确性等方面有严格要求的商业场景。

大模型商业化落地的基本条件是具备能精准适配下游场景任务,且保证结果高效、可控、合规的“高质量”行业大模型。一个“高质量”的行业大模型需要对通用大模型用行业数据进一步训练生成行业大模型,并对行业大模型调优实现。这其中,对通用大模型“再训练”、“调优”形成高质量行业大模型的两个动作,也决定了厂商必备的两大能力:丰富的行业数据积累和大模型调优能力。

其中,行业数据是指诸如金融、媒体、政务、医疗等特定领域的公开、非公开的知识、经验、数据。丰富的行业数据能快速提升行业大模型学习能力,并不断拉开与后来者之间的差距,为厂商带来先发优势。

大模型调优能力是指通过Fine-tuning、Prompt-tuning、Instruction-tuning、In-context Learning、奖励模型等多种手段使大模型的输出结果高效、可控、合规。只有具备大模型调优能力的厂商才能适应并满足客户多样化需求。

2)AI工程化能力

在Gartner看来,AI工程化是AI大规模发展的必经之路。虽然任何行业或企业,只要有场景、数据和算力,都可以落地AI应用,但落地效率、周期会远超预期。

这是因为AI应用在企业的落地涉及需求分析、数据准备、模型设计、模型训练、模型部署等多个环节。以数据准备环节为例,涉及多平台的数据采集、数据治理、数据标注、数据挖掘等多项工作;模型部署环节需要综合考量与企业软硬件系统的兼容和模型运行效果。若不考虑AI工程化,完整的模型开发周期将长达几个月到一年,难以敏捷适应业务的快速变化。

AI工程化能提供AI应用开发的系列方法、工具和实践集合,形成快速测试、构建和部署AI应用开发流水线,加速AI应用落地过程,实现模型自动重新训练和部署。

从大模型落地进程来看,“高质量”的行业大模型只解决了大模型“可用”的问题,若想AI成为企业的生产力,还需要解决大模型“落地”的工程化问题。因此,大模型“落地”对厂商的要求为,需要具备实现一站式端到端行业大模型训练、部署、上线全过程的AI工程化能力。

具体地,AI工程化能力涉及两个方面:1)通过分布式训练提升计算效率,解决大模型大体量参数、复杂网络结构带来的内存、通讯以及计算瓶颈;2)实现模型开发过程的持续生产、持续交付和持续部署。一方面,需要将定制化解决方案经验沉淀形成标准化产品,实现产品与服务的规模化,加速商业化落地效率;另一方面,也需要完善AI开发生命周期的工具、固化开发流程,提高模型开发全流程的紧耦合度,提升大模型训练效率。

拓尔思三十年累积优势:海量行业数据资产、模型调优经验和AI工程化能力

拓尔思自成立至今30年的时间中,在语义智能领域的长期实践中已经累积形成布局AIGC市场的三大优势:海量数据资产、模型可控和AI工程化能力,这为拓尔思发力AIGC市场积蓄起强大势能。

  • 海量数据资产:拓尔思于2010年自建大数据中心,至今已经积累了千亿级数据总量,并以日均亿级互联网数据的速度持续增加。其中包含境内外的超1300亿条公开类资源性数据资产,涵盖新闻、资讯、政策、视频、图片、百科、社交等多模态,数据总量达100TB以上;超100亿条主题类资源性数据资产,包括工业、货币与信贷、工业企业运行等宏观数据,产业政策、行业会议、产品信息、研究报告等中观数据,以及工商数据、经营数据、知识产权等微观数据;超30个专业领域的知识资产,如语义分析知识库、专利知识库、媒体知识库、金融知识库等;以及覆盖媒体服务、舆情服务、金融风控、产业投研、金融监管、智能消保、开源情报、政务应用等8大业务场景的3万+标签数据。

拓尔思形成了一套完整的数据和知识工程治理体系。以上数据资源基于拓尔思自研的数据底座经过采集、清洗、转换、分类、打标等流程完成基础数据治理后,被推送到媒体资讯、网络舆情、产业大脑三大数据资产平台中,再经过与不同行业知识模型融合处理,被加工成数据资产进入到数据流通与交易环节。这些数据资产可用作大模型的训练语料,具备高质量、高价值的特点,有利于提升大模型的专业性与精准度。

也正是基于以上海量的专业领域数据资产以及数据和知识工程治理体系,拓尔思已经具备350余个专业领域深度学习算法模型,包括NLP通用模型和专业领域模型,如风控征信模型、公共安全模型、指数模型等,在AIGC商业落地上已经具备丰富的经验。

  • 大模型调优经验:拓尔思充分利用过往在NLP领域的工程技术积累,能基于行业场景任务对大模型进行校对和优化,使大模型高效适配行业场景,模型推理效果满足客户需求。
  • AI工程化能力:自成立以来的30年间,拓尔思丰富的行业大模型、机器模型的应用实践,已经覆盖政务、媒体、公共安全、知识产权等领域的多种场景,并积累了丰富的AI工程经验,不仅能搭建分布式训练架构,提高大模型训练速度,还具备涵盖数据标注、模型设计、模型训练、模型优化、模型评估、模型部署等一站式AI工程化落地工具和服务能力,有助于实现专业大模型贴合用户场景快速落地。

AIGC生态可分为通用大模型、行业大模型和智能应用三层。以上优势落到AIGC生态中,使得拓尔思具备打通行业大模型和智能应用的研发能力,以及为客户提供AIGC产品、服务和解决方案的能力。因此,拓尔思在AIGC的定位为深扎AIGC文本领域,提供自行业大模型到上层应用的一体化服务。其中,对于底层的通用大模型,拓尔思将通过生态合作的方式获取,对于中间层具备行业知识壁垒的行业大模型以及上层的智能应用则由拓尔思自主研发实现。

图2:拓尔思在AIGC生态的定位示意图

开启新航路,拓尔思发力AIGC市场 | 爱分析调研02 拓尔思“智创”AIGC平台,为客户提供内容生成底层能力和行业解决方案

 

也正是基于拓尔思在数据资产、模型可控性、AI工程化等能力上的优势,拓尔思已经着手研发“智创”AIGC平台,为客户提供AIGC产品、服务和解决方案做准备。

“智创”是一款专注文字生成类的内容自动生产平台,以拓尔思长期积累的自然语言处理技术和人工智能平台产品为基础,融合开源大模型,专注于辅助型、应用型、创作型等文本内容的自动生成。

图3:拓尔思“智创”AIGC平台架构图

开启新航路,拓尔思发力AIGC市场 | 爱分析调研

 

“智创”的系统架构分为模型层、能力层、功能层和服务层四层。底层的模型层以拓尔思“智拓”人工智能平台为主,平台上积累了拓尔思30年来在不同领域不同场景下沉淀的文本和视觉模型资产,包括开源模型、自研模型。如文本模型中包括BERT模型、TS模型、BART模型、GLM模型等等。

能力层分为两个板块,“智语”和“智眼”。其中“智语”主要进行自然语言处理,具有智能增强、智能转译、语义理解等能力;“智眼”基于机器视觉对图像、视频进行处理,提供智能识别、基于模仿创作、基于概念创作等能力。

功能层是对场景的进一步细化,如在文本领域包括文本续写、文本摘要、文案生成、诗歌创作、情感改写等;在视觉领域,提供风格改写、图文生成、图文协同、关键词创作等。

服务层是拓尔思在不同领域的落地,如媒体领域的文案生成、辅助创作,政府领域的公文写作,金融领域的报告生成等,是落地的行业解决方案。

在客户侧,“智创”平台提供多种服务模式。如针对服务层的客户提供打包的解决方案,针对功能层的客户可通过API接口调用的方式集成,支持云平台调用和私有化部署。

03  拓尔思正实现丰富的AIGC应用场景落地

拓尔思AIGC技术核心围绕辅助性、创作型文本内容展开,在“智创”平台的加持下,已在政务、媒体、金融、元宇宙等多个领域的多样化场景中实现落地。

政务:结构化公文写作的辅助创作

在政务领域,拓尔思的机器写作可辅助公务人员提高公文写作效率。在公文写作中,部分诸如业务数据、单位名称、相关政策、份号、发文字号、发文机关等要素相对固化的内容,业务人员在写作时,仍需要查阅历史发文、政策法规、业务数据和关联机构等素材,而这些素材分散在各个系统中,查找起来费时费力。针对公文写作中常规固化的内容,拓尔思机器写作可基于过往的公文样例、模板进行自动生成,而对于公文中营商环境、政府意识等个性化内容,再由业务人员创作完成。

此外,拓尔思也将持续落地政务领域的政民互动服务、政务新媒体的创新应用、政策大脑的摘要/数据解读等应用场景。

媒体:知识型搜索引擎

在媒体领域,拓尔思通过知识型搜索引擎提高编辑人员写作效率。对于媒体领域的编辑、记者来说,一篇好文章是需要通过深入调研、持续求证才能获得的,而媒体自身的新闻数据库和历史资料库就是其中可求证的重要途径之一。实际工作中,由于一个主题的内容可能分布在不同系统,且以文字、语音、视频等不同的内容形式呈现,资料收集过程需要耗费大量时间。拓尔思可基于自身的NLP搜索能力与媒体合作,将媒体的新闻数据库和历史资料录入大模型做预训练,基于高针对性交互,形成权威且高效的内容输出,打造供媒体内部使用的知识型搜索引擎。知识搜索引擎可实现对媒体资料库的高维搜索,承担采访助手、辅助创作的角色。如针对历届两会中的教育内容,知识搜索引擎可自动整理相关内容给予完整呈现,为编辑人员提供充分的信息输入。

除知识搜索引擎外,在媒体领域,拓尔思还将持续关注机器人写稿、基于媒体大数据的自动报告生成(如热点舆情报告、传播力报告和榜单生成等)、多模态的自动配图(基于文本的图片、视频生成)等方向,丰富媒体创作工具。

元宇宙:聚焦数字人的智能问答和内容播报功能

在元宇宙方面,拓尔思基于语音语义识别、自图谱构建到运营的全链路知识图谱能力及丰富行业经验,让数字人具备知识储备、语义理解、推理分析、自主决策和交互表达能力,聚焦智能问答、内容播报两大方向,在各领域扮演具有专业知识的多种角色,如智能客服、合同智能审批、智能问答、直播带货等。

金融:研报摘要自动生成

拓尔思将深耕金融领域的自动报告生成(企业报告、产业报告等)、证券研报的智能解读和摘要生成、上市公司的信息检索等细分场景。

04 顺应AIGC发展大势,拓尔思锚定文本生成领域,行稳致远

2023年AIGC的火爆仅是AIGC市场飞速发展的开端,未来人们将见证层出不穷的AIGC技术和应用创新。单以内容生成这一视角切入,未来AIGC将迎来纵向质量和横向多模态的巨大飞跃。

纵向来看,基于AIGC技术的内容生成质量将持续迭代。当前落地形式以机器辅助生成为主,未来的商业化将以机器全自动生成为主,向更智能、生成质量更高、更有创作性的方向持续优化。

横向来看,不同于当前以文本、语音、视频等单模态生成内容为主,未来AIGC内容将以融合文本、语音、视频等多模态内容生成为主,跨模态内容生成更普遍。

图4:AIGC内容演进示意图

开启新航路,拓尔思发力AIGC市场 | 爱分析调研

 

拓尔思将瞄准AIGC领域发展趋势,前瞻性地开展业务布局。一方面,在内容质量上,拓尔思基于通用AIGC大模型,全力投入行业大模型的研发。以预训练大模型、In-Context Learning、Instruction-tuning等技术为基础,重点研发大模型与外部知识库的融合、小样本学习、交互式生成等功能,提升行业大模型对专业场景的适配性,实现机器全自动生成能力。另一方面,在内容模态呈现上,拓尔思在聚焦文本模型的基础上,将持续拓展视觉模型,在跨模态内容生成方面持续发力。

AIGC将成为拓尔思“大展拳脚”、开拓发展新航路的新起点。拓尔思将锚定文本生成领域自行业大模型到上层应用的一体化服务,为B端G端客户提供高质量服务,持续探索C端市场,完善NLP商业生态,与行业知识专家、平台型企业、行业头部企业等各方参与者一起驰骋广阔的蓝海市场。文章来源地址https://www.toymoban.com/news/detail-488958.html

到了这里,关于开启新航路,拓尔思发力AIGC市场 | 爱分析调研的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 无刷电机行业调研:市场销售规模达到537亿元

    无刷直流电机(BLDC:Brushless Direct Current Motor),也被称为电子换向电机(ECM或EC电机)或同步直流电机,是一种使用直流电(DC)电源的同步电机。无刷直流电机实质上为采用直流电源输入,并用逆变器变为三相交流电源,带位置反馈的,永磁同步电机。 无刷直流电机具有可靠性高、

    2024年01月20日
    浏览(43)
  • 菲律宾的区块链和NFT市场调研

    参考: https://zh.wikipedia.org/wiki/%E8%8F%B2%E5%BE%8B%E5%AE%BE zheng治制度:Zongtong议会制 现任Zongtong: 小费迪南德·马科斯, 是独裁者费迪南德·马科斯之子,人称“小马科斯” 官方语言: 菲律宾语、英语 种族: 米沙鄢人(33.8%)、他加禄人(27.7%)、 伊洛克人(9.8%)、华人(1.2%)、

    2024年02月13日
    浏览(60)
  • 马来西亚的区块链和NFT市场调研

    参考: https://zh.wikipedia.org/wiki/%E9%A9%AC%E6%9D%A5%E8%A5%BF%E4%BA%9A zz制度:联邦议会制 语言文字: 马来语 民族: 69.4%原住民(土著),23.2%华裔, 6.7%印度裔, 8.3%非公民 宗教: 61.3% 伊斯兰教, 19.8% 佛教, 9.2% 基督教, 6.2% 印度教 货币: 马来西亚林吉特(MYR) 人口: 3298万 马来西亚 78.2% 的

    2024年02月13日
    浏览(44)
  • 关键词采集工具在市场调研中的应用

    作为一名市场调查人员,我们需要了解目标用户的行为和偏好,以便我们能够制定相应的市场调查方案。我们可以利用采集工具来了解目标用户的行为和偏好,这些工具可以帮助我们了解用户在搜索引擎上使用哪些和短语,以及他们在社交媒体上的行为和偏好。

    2024年02月02日
    浏览(46)
  • FPGA的主流技术与市场表现方面的调研报告

    撰写简单的FPGA的主流技术与市场表现方面的调研报告,表达自己的认知和发展展望,500字,图片,表格除外 FPGA(Field-Programmable Gate Array)是一种可编程逻辑器件,是在PAL (可编程阵列逻辑)、GAL(通用阵列逻辑)等可编程器件的基础上进一步发展的产物,广泛应用于通信、

    2024年02月07日
    浏览(52)
  • 高纯气体市场调研:预计2029年将达到331亿美元

    高纯气体应用领域极宽,在半导体工业,高纯氮、氢、氩、氦可作为运载气和保护气;高纯气体可作为配制混合气的底气。随着LED和半导体的发展,对于其原物料生产的所需要的高纯气体,特别是7N级别的高纯氨气的需求不断增加,近年国内气体行业相关公司纷纷投入研发并投

    2024年01月16日
    浏览(40)
  • 【AIGC 视角】 可信计算调研报告

    可信计算是指在计算机系统中,通过硬件、软件和协议等多种手段,保证计算机系统的安全性、完整性和可靠性。可信计算主要包括以下几个方面: 安全启动:确保系统从启动开始就是可信的,并且没有被篡改或攻击。 安全运行环境:提供一种安全的执行环境,防止恶意软

    2023年04月17日
    浏览(86)
  • 【AIGC调研系列】AIGC企业级模型Command-R介绍

    Command-R与其他大语言模型的主要区别在于其专为企业级应用设计,特别是在检索增强生成(RAG)和工具使用方面。Command-R是一个350亿参数的高性能生成模型,具有开放式权重,能够支持多种用例,包括推理、摘要和问答[2]。它特别针对大规模生产工作负载进行了优化,属于可

    2024年04月26日
    浏览(42)
  • 【AIGC调研系列】AIGC大模型如何与sonar等工具集成

    AIGC大模型与Sonar等工具集成的方式主要体现在通过自动化和智能化的方式提升代码质量检测、内容生成和SEO优化等方面。具体来说,可以通过以下几种方式实现集成: 这表明AIGC大模型可以通过集成现有的自动化工具(如Sonar)来提高软件开发过程中的代码质量控制。 内容生

    2024年03月18日
    浏览(36)
  • AIGC视频生成/编辑技术调研报告

    人物AIGC:FaceChain人物写真生成工业级开源项目,欢迎上github体验。 简介:  随着图像生成领域的研究飞速发展,基于diffusion的生成式模型取得效果上的大突破。在图像生成/编辑产品大爆发的今天,视频生成/编辑技术也引起了学术界和产业界的高度关注。该分享主要介绍视频

    2024年02月05日
    浏览(64)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包