AIGC 场景下存储与数据管理的挑战与应对

这篇具有很好参考价值的文章主要介绍了AIGC 场景下存储与数据管理的挑战与应对。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

10月28日,"寻宝 AI 时代——OSC 源创会苏州站暨 Techo TVP 技术沙龙"在苏州圆满落幕。腾讯云存储专家解决方案架构师屠伟新带来《AIGC 场景下存储与数据管理的挑战与应对》主题分享。下面我们一起来学习回顾一下AIGC场景下的存储解决方案。

AIGC 场景下存储与数据管理的挑战与应对

AIGC 场景下存储与数据管理的挑战与应对,AIGC

在分享伊始,屠伟新首先提出了团队持续关注的问题,从2022年年底 ChatGPT 发布出来以后,AIGC 对数据的要求持续高涨,一方面模型训练需要非常多的数据量,另外一方面AIGC又会生成非常多的新内容。AIGC 产生内容的速度比真人拍照、视频产生内容的速度快非常多倍,是一个爆炸式的增长。在这样的背景下如何应对这么大规模数据的存储,如何保障数据在流转过程中的高效、高性能和高可靠呢?

屠伟新向大家介绍了 AIGC 典型的业务流程,开始先从网页或者数据供应商侧进行数据采集,获得需要训练的数据,通过大数据的能力对数据做一些清洗、预处理的工作,然后进行模型训练。在训练的过程中要求非常高的计算能力,存储能力和数据获取的能力。经过迭代,模型输出之后,把模型配送到服务端,再去供给最终的用户提供一个大模型的服务。今年4月份国家网信办发布了《生成式人工智能服务管理方法(征求意见稿)》,对AIGC生成物的合规性做了一系列规定。因此,对于 AI 产生的数据,也会有进一步加工和数据合规的要求。

从这些流程中可以发现,在数据采集阶段,数据量是巨大的。ChatGPT在文本的领域只需要几十TB,但如果往图片、视频等模态发展,数据量将呈指数级增长。一些企业在AI领域的原始采集数据量已经接近10PB的规模。面对巨大的数据量,首先需要一个大容量、可靠的存储,同时这些数据的流动也需要快捷高效,屠伟新也推荐大家选择腾讯云的对象存储COS作为数据存储的底座,腾讯云COS单集群可以达EB级的规模。在数据采集后,需要对这些数据进行预处理,清洗,打标签,或者是做一些任务类的处理。这时候主要是利用大数据集群的分布式计算能力。在大数据的生态里,我们的存储提供HDFS 的接口。腾讯云对象存储作为底层的基座,可以提供原生HDFS兼容的接口,利用Hadoop生态做一些批量的数据预处理工作。在模型训练的过程中,对于存储的要求是带宽高、时延低。在推理的过程中,则需要满足数据合规、数据智理两大核心需求。

接下来屠伟新介绍了腾讯云在 AIGC 整个业务流程中提供的存储解决方案,最底层是对象存储COS,单集群能力可达到上万的节点,带宽高达Tbps级别,容量达EB级。同时腾讯云还提供了标准、归档、深度归档等存储类型,配合数据生命周期管理,更大程度上优化成本。在这个基础之上,腾讯云存储还提供数据挖掘、数据生态上的一些解决方案,比如利用腾讯的AI和算法的优势,输出一些图片处理之类的AI技术能力。腾讯云存储面向AIGC场景,也提供了数据加速方案——GooseFS,GooseFS会利用分布节点上的资源,做就近计算端的高速缓存,从而达到2-10倍的性能提升。另外,在AIGC的训练场景里有很多的访问都是基于文件的接口,需要提供高带宽高性能数据存储服务的同时需要完全兼容POSIX语义。我们的GooseFSx产品就是在该场景下提供的兼容POSIX的高性能高并发的数据存储服务。其最大的一个优势是可以与后端的COS存储自由的数据流动,可以方便的预加载所需要的数据训练集以及把训练结果的沉降到统一的数据湖存储COS中,使得COS在AIGC整个业务流程中始终保持集中统一的数据存储底座,避免数据孤岛。

对于AIGC产生的数据,腾讯云也对应提供了一站式数据智理的方案。腾讯云“数据万象”整合了腾讯前沿实验室技术能力,包括AI实验室、优图实验室、多媒体实验室和天御实验室,结合腾讯行业领先业务的最佳实践,为客户提供图片处理、音视频转码、内容审核、AI识别等多种数据处理的能力。值得一提的是腾讯云存储支持对AI产生的数据进行追溯,比如在生成的图片上打上对应水印,可以提供明水印,也可以提供不影响用户感官的盲水印,后期通过技术提取出水印进行追溯。同时数据万象也提供了便捷智能的图片压缩服务,用户不用调相应的参数,系统会自动分析图片的质量和冗余度,在保证一定图片质量的基础上,降低图片的大小,为客户节省带宽成本。文章来源地址https://www.toymoban.com/news/detail-754478.html

到了这里,关于AIGC 场景下存储与数据管理的挑战与应对的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据结构课设:图书信息管理--顺序存储和链式存储

    在本实验中,我选择了两种存储结构(顺序存储和链式存储)来对图书信息表的修改问题进行描述,即:3.基于顺序存储结构的图书信息表的修改问题描述 和 13.基于链式存储结构的图书信息表的修改问题描述。 3.基于顺序存储结构的图书信息表的修改问题描述 首先,定

    2024年02月08日
    浏览(43)
  • HarmonyOS学习路之开发篇—数据管理(轻量级数据存储)

    轻量级数据存储适用于对Key-Value结构的数据进行存取和持久化操作。应用获取某个轻量级存储对象后,该存储对象中的数据将会被缓存在内存中,以便应用获得更快的数据存取速度。应用也可以将缓存的数据再次写回文本文件中进行持久化存储,由于文件读写将产生不可避免

    2024年02月13日
    浏览(50)
  • Android DataStore:安全存储和轻松管理数据

    关于作者:CSDN内容合伙人、技术专家, 从零开始做日活千万级APP。 专注于分享各领域原创系列文章 ,擅长java后端、移动开发、人工智能等,希望大家多多支持。 我们继续总结学习 Java基础知识 ,温故知新。 DataStore 是一种用于 Android 应用程序数据存储的新的推荐方式。 它

    2024年02月12日
    浏览(33)
  • 对应用数据开发还有疑惑?看这篇就够了!数据存储、管理,通通掌握!

      原文: https://mp.weixin.qq.com/s/0YzFUfx-1ZdfOQhaeekwhg ,点击链接查看更多技术内容。 数据管理可以做什么?应用数据的持久化怎么实现?如何实现数据库加密? 在开发应用进行应用数据的处理时,您是否也会有这些疑问呢? 现在,我们推出了更为清晰完善的数据管理文档,帮助

    2024年02月07日
    浏览(35)
  • 云原生数据湖以存储、计算、数据管理等能力通过信通院评测认证

    又一项大能力-云原生数据湖获得信通院认证啦! 近日,中国信息通信研究院 (以下简称“信通院”) 正式公布了第十四批“大数据产品能力评测”结果,腾讯云云原生数据湖 基于对象存储 COS,数据湖加速器 GooseFS、数据万象 CI 和容器服务 TKE 的数据湖解决方案 V5.0 ,在存储能

    2024年02月02日
    浏览(31)
  • 演讲预告|字节跳动云原生大数据发展、AIGC 新引擎、运维管理实践

    出品人:李亚坤|火山引擎云原生计算技术负责人 专题简介: 大数据已成为企业数字化转型中, 支撑企业经营和业绩增长的主要手段之一。通过升级云原生架构,可以为大数据在弹性、多租户、敏捷开发、降本增效、安全合规、容灾和资源调度等方向上带来优势。传统的大数

    2024年02月11日
    浏览(32)
  • 效率起飞!天翼云并行文件服务HPFS高效应对AI时代大模型训练存储挑战!

    国内外AI大模型层出不穷,训练数据复杂程度更是呈指数级增加。如今,在万亿级参数时代,单个资源池已无法满足大模型训练场景中动辄PB级的数据存储量,对于企业来说,启用多个资源池构成的分布式存储势在必行。     为了应对AI大模型训练对数据存储的需求,天翼云推

    2024年03月09日
    浏览(38)
  • 大数据处理技术作业——使用HBase&MongoDB&MapReduce进行数据存储和管理

    写这篇文章的目的,主要是为了记录一下这次作业历程,并且笔者了解到很多同志饱受作业折磨,遂简单分享一下个人完成作业的历程,以下内容仅为本人的一些乱七八糟的想法, 仅作参考O(∩_∩)O 1、本作业的链接 【完成本次作业用到的代码文件,列出网盘链接,https://p

    2024年02月07日
    浏览(44)
  • Flink与Cassandra:如何在大规模数据处理中存储与管理数据

    作者:禅与计算机程序设计艺术 1.1. 背景介绍 随着大数据时代的到来,数据处理的需求也越来越大。在实际工作中,我们常常需要处理海量数据,如何高效地存储与管理数据成为了我们必须面对的问题。 1.2. 文章目的 本文旨在探讨如何在大型数据处理环境中使用 Flink 和 Ca

    2024年02月13日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包