AIGC数据处理与存储解决方案

这篇具有很好参考价值的文章主要介绍了AIGC数据处理与存储解决方案。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

          针对在AIGC的场景下,如何解决在AIGC训练过程中数据的存储和数据处理的问题,杨冠军从三个方面进行介绍与解读:

        一是AIGC对存储提的新需求;

        二是介绍腾讯云可以给用户提供的整体存储解决方案;

        三是腾讯云提供的整体数据处理方案。

AIGC数据处理与存储解决方案,人工智能,# 存储行业趋势研究,AIGC,人工智能

AIGC的新需求:模型训练与应用推理的述求

        我国每年产生的数据量呈现非常大的增长趋势,这个前提还是前两年AIGC场景仍未出现的情况。而现在从UGC到AIGC以后,相信整个行业产生的数据量会比这个更为庞大,如何处理这些数据,这些数据怎么应用到系统上?这都对数据存储带来了更大的需求和挑战。

        从最初收集的原始数据,基于这些数据做数据处理,产生对应预处理后的数据,然后再给后面的训练模型,可以看到在整个模型训练的过程当中,会带来很大的数据量增长,也带来了对数据的统一存储的需求。

        腾讯云对此训练场景总结的需求有三点:一是数据湖的统一存储。在整个AIGC的过程当中,数据存储的量非常大,它带来的存储需求就需要用数据湖来解决,避免数据孤岛的问题。二是在各个业务的处理过程当中,数据流动的需求,这些数据如果用一些传统的文件存储的话,就会遇到数据孤岛的问题,因此需要一个统一存储来对其提供服务第三是高吞吐和低延迟,在AIGC的场景下,GPU的算力是稀有和昂贵的,客户希望整个训练是跑的越快越好,对GPU使用的越满约好,这就对底层的存储提出了一个要求:越快的把数据读出来,越快的提供给上层训练,这样价值才是最高的。

        在AIGC业务处理流程中,应用推理场景核心需求主要由内容审核与数据智理两部分组成。将训练好的模型部署后,并通过服务模式提供给用户,通常的逻辑就是用户提供prompt,基于prompt生成一些数据。无论是文生文,文生图,还是视频等,这都要海量数据的存储,在腾讯云上都是通过对象存储来提供。

        而在这些数据生成的过程当中,基于有国家安全合规的监管要求,就需要用到腾讯云提供的内容审核和数据处理的能力。同时针对这些数据,用户希望它能够有一些数据智理的功能,这里基于我们对AIGC业务的梳理,用了一个智能的智,后面会详细的介绍该需求。

腾讯云存储解决方案

AIGC数据处理与存储解决方案,人工智能,# 存储行业趋势研究,AIGC,人工智能

        AIGC的整体存储解决方案,总共用到了腾讯云的三种产品:对象存储COS、GooseFS、GooseFSx。从最原始的数据集上云、到模型训练、推理应用、内容治理中的数据存储,腾讯云提供了一站式的整体存储解决方案。

        AIGC的整体存储解决方案,总共用到了腾讯云的三种产品:对象存储COS、GooseFS、GooseFSx。从最原始的数据集上云、到模型训练、推理应用、内容治理中的数据存储,腾讯云提供了一站式的整体存储解决方案。

        最左边显示的是腾讯云提供的专门的数据迁移上云服务,可以把用户收集到的数据、或友商上的数据导入腾讯云COS对象存储上。中间这部分描述的就是我们提到的一站式存储解决方案,最底层是腾讯云海量存储的底座-COS对象存储,上面通过GooseFS和GooseFSx两种产品,来完成AIGC场景下数据预处理的加速、模型训练中的POSIX访问的需求。

AIGC数据处理与存储解决方案,人工智能,# 存储行业趋势研究,AIGC,人工智能

        在数据爆炸性增长的时代,对象存储永远是最合理的存储底座,上面这个图是腾讯云对象存储COS的整体服务框架,在这个架构当中,最底层就是腾讯云自研的分布式对象存储引擎Yotta,它可支持单集群1万台服务器,单集群EB级的存储,对原始的数据和AIGC生成的数据做统一数据湖存储是非常适合的。另外COS对象存储提供了标准、低频、归档、深度归档等多种存储类型,支持通过生命周期管理的方式来做合适的降本,让客户在拥有一个海量的存储系统的同时,并且不会付出太高的存储成本。

AIGC数据处理与存储解决方案,人工智能,# 存储行业趋势研究,AIGC,人工智能

        在对接客户的数据预处理需求中,我们发现通常节点本地有很多的空闲磁盘可以利用,腾讯云GooseFS是一个分布式缓存系统,可以有效的把计算节点的这些磁盘利用起来,来加速对底层对象存储的访问,提供更高的读性能给上层应用。另外GooseFS也支持常用的多种协议,包括了HDFS、FUSE及S3协议。在不同的应用场景下,GooseFS可以有效的提升上层应用访问COS的性能,基本有2到10倍的性能提升。

        下面介绍下GooseFS在数据预处理场景下的最佳实践,其部署方案主要有低成本、高性能及高可靠三个特点。低成本:GooseFS Worker部署在计算节点上,利用计算节点NVME SSD作为缓存介质,提供PB级别缓存空间;高性能:通过VPC网络打通数据流,多节点可以构建TB/s的吞吐能力;高可靠:GooseFS Master 单独部署,3节点通过RAFT协议保证GooseFS集群的高可靠性。

AIGC数据处理与存储解决方案,人工智能,# 存储行业趋势研究,AIGC,人工智能

        在AIGC的训练场景里,很多的访问都是基于文件的接口,这跟传统的HPC或者是AI的场景里通过POSIX的语义访问是一致的,我们的GooseFSx产品提供的就是完全兼容POSIX语义访问的能力。

相比传统客户自己部署分布式文件存储服务,GooseFSx整体有如下优点:

1.全托管云服务,一键式购买发货,省去部署、调测等运维工作;

2.完全兼容POSIX文件语义,工作负载无需进行任何改动;

3.按创建容量计费,按量付费、弹性扩容,避免资源闲置;

4.自动部署客户端软件,将GooseFSx挂载到主机的本地目录;

5.采用分布式架构,性能随节点扩展而线性增长;

        下面我重点介绍下GooseFSx与COS数据的自由流动的能力,这在基于COS提供数据湖统一存储,然后上层应用需要POSIX文件访问的场景里是非常重要的。

1.COS 上的 Object 按照 Key,以相同的目录结构射到 GooseFSx 上;

2.关联多个存储桶:数据加速器能同时对多个存储桶进行加速;

3.双向流动:可以从 COS 加载,并将新生产的文件沉降到 COS;

4.自定义流动的策略:基于整个存储桶或自定义前缀、进行加载或沉降;

5.增量同步:再次加载或沉降时,仅同步增量的数据

6.数据流动任务:管理数据流动,输出任务报告,保障数据流动完整性,简单易用;

腾讯云数据处理方案

        数据万象是腾讯云提供的一站式智能平台,整合腾讯领先的AI技术,打造数据处理百宝箱,提供图片处理、媒体处理、内容审核、文件处理、AI内容识别、文档服务等全品类多媒体数据的处理能力。

        腾讯云内部有多个实验室,数据万象整合了腾讯前沿实验室技术能力,如AI实验室:基础算法;优图实验室:图像识别;多媒体实验室:编解码研究;天御实验室:安全封控算法,结合腾讯行业领先业务最佳实践,如腾讯音乐:降噪、分离等场景;腾讯视频:视频指纹、编解码等场景;腾讯新闻:图文审核等场景;腾讯全民K歌:歌唱评分、音乐标签等场景。

AIGC数据处理与存储解决方案,人工智能,# 存储行业趋势研究,AIGC,人工智能

        在AIGC的场景里面,目前大家关注最多的还是文本,随着后面多模态模型的发展,会有越来越多的文生图、文生音频、文生视频场景,甚至还会有基于图片生成一段视频的方式。数据万象对这些能力都是覆盖的,包括图片的处理、音频处理及视频处理的能力。

        国家一直有内容合规和审核的要求,在数据万象的功能中,还包括了内容审核的能力,无论是针对文本、音频还是视频,数据万象都提供了一整套的内容审核解决方案和能力,基于存储在COS上的数据,你可以非常方便的做业务内容审的对接。

AIGC数据处理与存储解决方案,人工智能,# 存储行业趋势研究,AIGC,人工智能

        总结来看,腾讯云提供的一站式数据处理有如下三点优势:

        一是便捷的介入,无论是对象存储还是数据万象,都是一体化的平台,提供一站式的存储和内容审核的方案;

        第二是精准的模型,基于腾讯云对接的众多客户,我们针对AIGC场景做了专门的审核模型和一些专项的优化;

        第三是更高的性能,数据存储在对象存储上,其调用审核和处理都是在同一个园区内,这个流程加载和处理的时延是非常低的;

        数据万象还有一个很棒的功能就是智能检索服务。在AIGC的时代,随着自己拥有的数据越来越多,数据检索的需求也会越来越大。比如我们在个人电脑上有几十GB的数据,检索到合适的数据就会让人感觉困难,而随着AIGC的发展,用户拥有的数据会到TB、PB的量级,这个情况下要搜索到合适的数据就会更加困难。在大模型出现后,我们发现通过这种智能检索服务对文本、图片、视频做特征提取,然后把提取后的特征存储下来,后面再基于输入的文本做对应特征的匹配,这样搜索的丰富度和准确性都是很高的。

AIGC数据处理与存储解决方案,人工智能,# 存储行业趋势研究,AIGC,人工智能

        当前腾讯云数据万象支持的智能检索服务有:文搜图,图搜图,图搜视频,视频搜视频。智能检索服务的底层是数据万象的大语言模型,它是腾讯云基于授权的商业数据以及自有业务数据进行预处理抽取,机器翻译,模型清洗,图文配对,人工校对等处理工作,然后训练出来的一个垂直领域大模型。

        在实际的应用需求中,智能检索服务可以有效的应用在多种图片检索场景,总结而言,数据万象有三点优势:

        一是通过智能扣图来建立特征库更为精确;

二是支持文本、图片的多种的检索形态,提供API/SDK的访问方式较为便捷;

        三是底层是腾讯云数据万象的自研的大语言模型,它可提供秒级的检测的结果;

总结回顾

AIGC数据处理与存储解决方案,人工智能,# 存储行业趋势研究,AIGC,人工智能

        围绕AIGC,腾讯云提供了生成、审核、智理全生命周期的存储和数据处理解决方案,分为下面三个部分:

        第一是数据生成,腾讯云有对象存储COS、GooseFS、GooseFSx对接我们的大语言模型的训练,推理平台的构建;

        第二是内容审核,通过数据万象中的内容审核来做一些合规性的审核,以此保证整个平台的安全;

        第三是数据智理,通过智能检索的服务来做特征的匹配和查询,快速满足上层业务需求。文章来源地址https://www.toymoban.com/news/detail-741819.html

到了这里,关于AIGC数据处理与存储解决方案的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深度解读AIGC存储解决方案

    5月26日,2023数据基础设施技术峰会在苏州举办,腾讯云首席存储技术专家温涛受邀出席并分享了腾讯云领先的存储技术在AIGC场景中的应用,通过对AIGC业务流程和场景的提炼,从内容生成、内容审核和内容智理三要素介绍了如何智能的存储和管理数据。下面我们一起回顾下温

    2024年02月16日
    浏览(33)
  • AIGC 存储内容安全解决方案

    AIGC会帮助恶意份子更高效地炮制违法违规内容。 2022年,ChatGPT的推出,使 AIGC 这个名词进入了大众的视野。Stable Diffusion、MidJourney等可以生成图片的 AIGC 直接引爆了 AI 作画领域。Gartner 将生成性 AI 列为2022年五大影响力技术之一。 大量的 AIGC 在上线初期就面临关停风险,核心

    2024年02月09日
    浏览(52)
  • RK3588+FPGA视频实时处理与双屏显示、存储解决方案

    主板平台的主要功能电路示意图 在ARM端: 脚踏开关是电平输入10 口,双路。 触摸面板与主板的连接方式为 UART 外加12V 电源。 键盘为自开发产品,通过USB透传 UART,并传递12V电源USB、千兆网络为主板上的接口,USB 为3.0版本host 接口 SSD 为内置硬盘。 图像输出视频接口主要包含

    2024年02月16日
    浏览(57)
  • 常见后端数据存储问题解决方案

    1、mysql数据准确性        常见电商系统中,如订单服务、现金券服务、活动类服务等,这类服务中经常会出现一些并发更新数据的情况,如何保证数据准确性。虽然有些操作可通过\\\"状态\\\"字段做了类似乐观锁的处理。但理论上还是会出现ABA的问题,而且规则不够统一,不同

    2023年04月18日
    浏览(37)
  • Hadoop HDFS:海量数据的存储解决方案

    在大数据时代,数据的存储与处理成为了业界面临的一大挑战。Hadoop的分布式文件系统(Hadoop Distributed File System,简称HDFS)作为一个高可靠性、高扩展性的文件系统,提供了处理海量数据的有效解决方案。本文将深入探讨HDFS的设计原理、架构组成、核心功能以及实际应用场

    2024年04月23日
    浏览(41)
  • JeecgBoot集成TiDB,打造高效可靠的数据存储解决方案

    TiDB 是 PingCAP 公司自主设计、研发的开源分布式关系型数据库,同时支持 在线事务处理 与 在线分析处理 (Hybrid Transactional and Analytical Processing, HTAP) 的融合型分布式数据库产品,具备水平扩容或者缩容、金融级高可用、实时 HTAP、云原生的分布式数据库、兼容 MySQL 5.7 协议和

    2024年01月24日
    浏览(41)
  • Redis 分区:构建高性能、高可用的大规模数据存储解决方案

    在 Redis 中,分区是一种将数据分布在多个实例上的技术,用于处理大规模数据和提高系统性能。通过分区,可以将数据均匀地分布在多个节点上,从而减轻单个节点的负载压力,并实现水平扩展。 Redis 分区应用场景 1. 大规模数据存储 在 Redis 中,单个实例的内存有限,无法

    2024年04月14日
    浏览(44)
  • 漏斗分析、 python学习路径地图、数据科学技能书知识地图、数据安全治理解决方案、AIGC发展研究、经营的本质…| 本周精华...

    ▲ 点击上方卡片关注我,回复“8”,加入数据分析·领地, 一起学习数据分析,持续更新数据分析学习路径相关资料~ (精彩数据观点、学习资料、数据课程分享、读书会、分享会等你一起来乘风破浪~ )回复“小飞象”,领取数据分析知识大礼包。 关注微信公众号: 木木

    2024年02月11日
    浏览(46)
  • 深度学习预备知识-数据存储、数据预处理

    为了能够完成各种数据操作,我们需要某种方法来存储和操作数据。 通常,我们需要做两件重要的事: (1)获取数据; (2)将数据读入计算机后对其进行处理。 如果没有某种方法来存储数据,那么获取数据是没有意义的。 首先,我们介绍n维数组,也称为 张量 (tensor)

    2024年01月17日
    浏览(40)
  • 大数据分析-第三章 大数据存储和处理

    关系型数据库 NoSQL:泛指非关系型数据库,比如MongoDB 全文检索框架:Elasticsearch 行式存储:大数据量查询,如果没有索引,则会遍历 列式存储:可以大量的压缩空间 位图索引 位图索引的例子,如下图所示,我们可以存储为 “男”:100101 “女”:011010 行号 姓名 1 男 2 女 3 女 4 男

    2024年02月09日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包