酷克数据简丽荣:“模型热”将引发云计算与数据库行业大变革

这篇具有很好参考价值的文章主要介绍了酷克数据简丽荣:“模型热”将引发云计算与数据库行业大变革。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

随着LLM智能涌现的发生和API的爆发式发展,各行各业都在关注如何用好通用模型,如何调校好适合自己的行业应用。LLM最重要的输入是数据,最频繁的接口是数据库。模型应用的普及会对数据库产生哪些影响?大模型时代对企业的数据管理能力和范式提出了哪些新的要求?

围绕这些问题,酷克数据联合创始人兼CEO简丽荣接受了《中国电子报》的专访,解读大模型时代云计算和数据库行业的变革与机遇。以下为专访全文:


当前,大模型引发的AI再造产业趋势已经势不可挡,对于支撑AI的底层数据库而言更是如此。“以ChatGPT为代表的超大语言模型的迅速应用将引发云计算与数据库行业的大变革。”北京酷克数据科技有限公司(简称“酷克数据”)联合创始人兼CEO简丽荣近日在接受《中国电子报》记者专访时表示。

大模型热潮将改变云计算和数据库市场竞争维度,加速企业IT架构向分布式和并行化发展的趋势,这也符合“东数西算”的政策导向。同时,大模型将会推动多云化的普及,具备中立性、产品支持多云部署的独立数据库厂商将有望从中受益。

数据处理全链路将被重塑

AI大模型是基于海量多源数据打造的模型,需要通过不断地训练从大量标记和未标记的数据中捕获知识,并将知识存储到大量的参数中,以建立对各种任务进行高效处理的技术架构。它具备通用、可规模化复制等诸多优势,是实现AGI(通用人工智能)的重要方向。

“‘数据仓库’‘数据平台’和‘大模型’本质上都是为了更好地回答决策问题。从某种意义上讲,它们之间是相辅相成的。”简丽荣表示,一方面,数据仓库成熟的数据管理、清洗、并行处理技术,可以有效提升训练、微调大模型所需训练数据的处理流程;另一方面,数仓作为天然的事实数据或知识管理平台,可以为生成式AI提供正确答案所需的上下文,有效解决大模型普遍存在的“幻觉”问题。数仓和大模型的有机结合,可以更好地帮助企业实现辅助决策。

区别在于,大模型处理数据的方式明显不同于现在主流的数据仓库、数据平台。数据仓库、数据平台往往会把原始数据编制成二维表格,然后进行数据清洗、规整、补全等处理,最终通过复杂的SQL实现商业智能。而大模型则需要不断把原始文本信息用提示的方式进行投喂,让其进行深度学习,从而实现对任务的高效处理,这与传统的基于二维表格的形式存储、管理数据完全不同。

酷克数据简丽荣:“模型热”将引发云计算与数据库行业大变革

简丽荣分析称:“传统数据处理需要消耗大量人力、物力以及时间,而且有很多环节非常容易出错,如数据清洗、数据血缘分析、主数据管理、数据质量、数据治理、ETL、数据分析、数据库运维等。以ChatGPT为代表的通用人工智能模型的迅速应用,将会大幅提升数据处理全链路各个环节的自动化程度。”

比如,Text2SQL(即Text-to-SQL,指将自然语言文本转换成结构化查询语言的过程),就是借助大模型的能力,自动根据自然语言生成结构化查询语言,完成BI(商业智能)任务,提升数据工程师工作效率。

简丽荣表示:“大模型的出现,一方面,让大家开始思考如何利用模型的能力去重构数据处理全链路的各个环节,以实现更高程度的智能化、自动化;另一方面,也促使大家开始思考如何将数据仓库、数据平台的数据处理规则与大模型进行适配,从而更好地支持大模型的训练、调优、部署、推理及应用。”

云计算资源消费模式将被改变

众所周知,大模型训练的关键在于算力、数据和算法。简丽荣认为,云计算平台正是提供这三个要素最合适的平台。首先,大模型需要大量算力,特别是高端GPU;其次,需要海量的数据,特别是一些高质量的数据;此外,大模型还需要算法的支持,Model as a Service将成为一种新的PaaS服务。这些都是新的需求,也是云平台最擅长做的事。所以,大模型的出现将会非常有效地提振云计算市场。同时,拥有更强GPU算力的云厂商会更具竞争优势。

简丽荣指出,大模型的出现,将会对自然语言处理、计算机图像,甚至自动驾驶造成颠覆性的影响,改变这些领域的整个软件和硬件技术栈,从而给云计算市场带来全新的资源消费模式。

酷克数据简丽荣:“模型热”将引发云计算与数据库行业大变革

以SaaS服务为例,大模型对低代码的冲击将会非常明显。低代码(或零代码)核心价值是通过拖拉组合解决软件开发慢、门槛高的问题。然而,大模型的出现颠覆了低代码的整个开发模式。“低代码能够覆盖的应用场景是有限的,未来后台的技术栈会被大模型彻底颠覆。”简丽荣表示。

像ChatGPT之类的大模型可以通过自然语言描述直接创建应用程序,AI生成代码的速度远超人工,甚至还可以通过对话持续提出改进建议。此前,曾经估值130亿美元的AI写作工具Grammarly在ChatGPT发布后就出现了网站用户直线下降的情况。

简丽荣认为,AI应用的大规模推广实际上增加了IT行业的竞争维度,不同的企业在不同的维度上面的竞争力是不一样的。IT层会更加多元化,这自然也会推动多云的普及程度。

未来,大部分普通的非科技企业用户只需要调用云厂商提供的MaaS服务(模型即服务)来构建自己的垂类模型和应用,而一些大型企业用户出于数据安全、行业监管要求、成本、自主可控等因素,可能会更倾向于建设自己的基础平台来完成专有模型训练和推理任务。

大模型加速数据库分布化和并行化

伴随“模型热”的兴起,庞大的数据量带来了存储和计算资源的压力,这要求数据库本身紧密跟云计算技术结合,通过元数据、计算和存储层解耦,从而充分发挥云平台的弹性和扩展能力。

简丽荣认为,在大模型爆发的背景下,数据库需要提供可以横向的并发访问能力、多范式的数据处理分析能力(包括支持声明式语言SQL,过程式语言Python/R,图计算、全文检索、流式计算、高性能计算、机器学习和人工智能)和海量异构数据(结构化数据、半结构化数据、非结构化数据以及实时数据)的存储管理能力。

在这种趋势下,基于云原生架构的数据仓库将成为未来数据库行业发展的重要方向,而大中型企业考虑到高可用以及议价能力等因素,通常会选择多云部署的模式。

“这种趋势对我们做多云数据库的企业也有明显影响,用我们的核心产品HashData云数仓为例,设计之初,我们对多云部署场景的考虑是通过将系统的不同组件解耦,降低对特定接口的依赖,方便对接各种开放的云平台,满足企业数据在不同云平台流转的需求。”简丽荣说,“我们现在在开发增强HashData数据仓库支持向量数据存储和处理检索能力的功能组件,再结合云数仓的高扩展性、高可用和高弹性,实现更好地支撑和扩展大模型的应用场景。”简丽荣表示。

与此同时,分布式和并行化潮流将进一步加速。“大模型的应用将进一步加速数据库行业的分布式和并行化潮流,而且在一个更深更广的层面上进行分布式和并行化。”简丽荣表示,“更深指的是更多异构的算力资源需要并行化,包括CPU、GPU、DPU等,更广指的是类似‘东数西算’工程,这些都要求数据系统能够更好地提供共享和协作能力。”

此外,除了类似ChatGPT一样的To C的形态外,大模型在企业级市场将更多地以个性化、独立部署的形态出现,也就是说各行各业甚至同一家企业不同的部门都会有各自的大模型实例,类似行业专家。在这样的背景下,需要在数据库内核集成深度学习和大模型的能力。

“无论是数据分析全链路的各个环节还是数据库自身的运维工作,都非常耗时和依赖经验,我们正在尝试利用大模型训练数据库领域的专家系统,期望提升数据分析和数据库智能运维能力,实现在数据库范围内有类似于‘自动驾驶’一样的功能。”简丽荣表示。文章来源地址https://www.toymoban.com/news/detail-496824.html

到了这里,关于酷克数据简丽荣:“模型热”将引发云计算与数据库行业大变革的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • MySQL:想实现sql语句进行批量删除数据库或表,而引发的熬夜探究

    因为在自测过程中,创建了很多数据库,一个个手动删除属实有点对不起程序员这个身份,那么有没有简单的sql语句操作来进行批量删除数据库呢?于是便有了本篇文章 上面图片是AI创作,未经允许,不可商用哦! 删库跑路需谨慎, 放弃一切亦不易。 了解到数据库或表的信

    2024年01月16日
    浏览(61)
  • 物联网行业中,我们如何选择数据库?

    在当今数字化潮流中,我们面对的不仅是海量数据,更是时间的涟漪。从生产线的传感器到金融市场的交易记录,时间序列数据成为了理解事物演变和趋势的关键。在面对这样庞大而动态的数据流时,我们需要深入了解一种强大的工具——时序数据库。时序数据库的崛起不仅

    2024年04月15日
    浏览(51)
  • 6月《中国数据库行业分析报告》已发布,首发空间、搜索引擎数据库【全球产业图谱】

    为了帮助大家及时了解中国数据库行业发展现状、梳理当前数据库市场环境和产品生态等情况,从2022年4月起,墨天轮社区行业分析研究团队出品将持续每月为大家推出最新《中国数据库行业分析报告》, 持续传播数据技术知识、努力促进技术创新与行业生态发展 ,目前已更

    2024年02月13日
    浏览(56)
  • 8月《中国数据库行业分析报告》已发布,聚焦数据仓库、首发【全球数据仓库产业图谱】

    为了帮助大家及时了解中国数据库行业发展现状、梳理当前数据库市场环境和产品生态等情况,从2022年4月起,墨天轮社区行业分析研究团队出品将持续每月为大家推出最新《中国数据库行业分析报告》, 持续传播数据技术知识、努力促进技术创新与行业生态发展 ,目前已更

    2024年02月10日
    浏览(63)
  • 数据库从业者在行业的变革下------越来越难

    开头还是介绍一下群,如果感兴趣polardb ,mongodb ,mysql ,postgresql ,redis 等有问题,有需求都可以加群群内有各大数据库行业大咖,CTO,可以解决你的问题。加群请联系 liuaustin3 ,在新加的朋友会分到2群(共840人左右 1 + 2 + 3)新人会进入3群。 为什么会提出这个话题,纯属有感而

    2024年02月09日
    浏览(48)
  • 黑豹程序员-架构师学习路线图-百科:PowerDesigner数据库建模的行业标准

    PowerDesigner最初由Xiao-Yun Wang(王晓昀)在SDP Technologies公司开发完成。 目前PowerDesigner是Sybase的企业建模和设计解决方案,采用模型驱动方法,将业务与IT结合起来,可帮助部署有效的企业体系架构,并为研发生命周期管理提供强大的分析与设计技术。 PowerDesigner独具匠心地将多

    2024年02月08日
    浏览(44)
  • 数据库的星型模型与雪花模型

    星型模式模型可以被描述为一个简单的星型结构:一个中心表包含事实数据,多个表从它向外辐射,由数据库的主键和外键连接。 在星型模式实施中,数据库的构建者将所有维度级别的维度数据存储在单个表或视图中。 例如,如果您使用星型模式实现Product维度,那么数据库

    2024年02月12日
    浏览(42)
  • MySQL基础——数据模型·数据库操作

    ♥️ 作者:小刘在C站 ♥️ 个人主页: 小刘主页 ♥️ 每天分享云计算网络运维课堂笔记,努力不一定有回报,但一定会有收获加油!一起努力,共赴美好人生! ♥️ 树高千尺,落叶归根人生不易,人间真情 目录 1.数据模型 2. SQL 2.1 SQL通用语法 2.3 DDL 2.3.1 数据库操作 1). 查

    2024年02月06日
    浏览(64)
  • MySQL数据库 3.内部数据模型

      关系型数据库是建立在关系模型基础上,由多张相互连接的二维表组成的数据库。 关系型数据库是一种使用关系模型来组织数据的数据库系统。数据以 二维表 的形式存储,一张表代表一种数据实体或关系。每行数据都包含了实体或关系的属性信息,每列则代表一个属性。

    2024年02月07日
    浏览(54)
  • 实用数据库开发实践MySQL——数据模型

    目录 第1关 关系模型 关系型数据模型 关系模型基本术语 关系模型的数据操纵与完整性约束 数据操纵 完整性约束 关系模型优缺点 优点 缺点 实验 头歌实验代码 第2关 层次模型 层次型数据模型 层次模型的数据操纵与完整性约束 数据操纵 完整性约束 层次模型优缺点 优点 缺

    2024年02月07日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包