当大模型遇到数据仓库 HashData助力LLM规模化应用

这篇具有很好参考价值的文章主要介绍了当大模型遇到数据仓库 HashData助力LLM规模化应用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

6月30日,由 IT168主办的第十六届中国系统架构师大会(SACC2023)在北京开幕。本届大会以“数字转型 架构演进”为主题,议题涵盖AIGC大数据、多云多活、云成本等多个热门领域。

在会上,酷克数据首席科学家杨胜文发表了题为《当LLM遇到数据仓库》的主旨演讲,分享了对大模型热潮的观察和思考,并介绍了借助酷克数据研发的下一代高级分析和数据科学工具HashML,简化从数据处理、模型微调到知识增强的智能应用构建流程,助力LLM在企业实现规模化落地应用。

杨胜文表示,目前百亿级参数LLM已经具备优秀的语言理解和生成能力。在LLM技术还在快速演进的过程中,相对于千亿级参数模型,百亿级参数模型具有非常明显的成本优势,成为现阶段推动LLM在企业低成本、规模化落地的一个重要选项。

“一方面,通过模型的低成本私有化部署,可以解决很多企业对数据安全担忧的问题。另一方面,企业可以更加方便地利用数据仓库中已有的数据对模型进行微调,并结合HashData对向量数据的存储和高效检索的支持,快速构建知识增强的智能应用。”杨胜文介绍,在具体实施过程中,企业可以通过简单易用、算法丰富、性能卓越的AI开发工具HashML,让数据科学家、数据工程师、应用开发者无门槛地使用LLM。

当大模型遇到数据仓库 HashData助力LLM规模化应用

酷克数据首席科学家杨胜文

LLM热潮下的冷思考

自去年11月底ChatGPT发布以来,国内外很多厂商都加大了对大语言模型的研发投入,各种模型与应用如雨后春笋,层出不穷。据中国科学技术信息研究所统计,截止今年5月,国内已发布10亿参数规模以上的大模型79个,俨然进入一场新的军备竞赛。

对于这波大语言模型引发的AI热潮,学术界尚存诸多不同的看法。有些科学家认为,应该暂停大型AI实验,以免给人类社会带来潜在的风险和危害。有些科学家认为,自回归语言模型并不能让机器实现人类水平的智能,无需过度担心,实现通用人工智能(AGI),需要有别的技术路线。

尽管学术界仍有争议,但这并未影响LLM应用遍地开花。围绕ChatGPT,开发者和企业不仅可以通过API访问OpenAI提供的服务来构建自己的AI应用,也可以在ChatGPT中使用各种插件,从而让ChatGPT变得更加强大。OpenAI也在近期推出了ChatGPT App,支持语音输入,并对更多国家和地区开放了服务。谷歌、微软等跨国公司也相继宣布在全线产品接入大语言模型能力。在国内,不少企业通过与AI服务提供商合作,尝试在产品研发或IT系统中引入大语言模型能力。

杨胜文表示,尽管大模型的应用前景非常广阔,但并非所有企业和创业者都可以在这个领域取得成功,喧嚣过后最终仍将回归到场景价值,回到企业对于成本与收益的考虑上来。站在客户的角度,需要考虑选择合适的场景,以较低的成本进行应用试点,来验证可以获得的收益,而不是一开始就要求客户投入大量的启动资金。

“对个人消费者而言,一般通过聊天服务和基于大语言模型的各种效率工具,基本能够满足大多数需求。”杨胜文表示,“但对于企业客户而言,往往需要将大模型的能力与自研产品或IT系统做集成甚至深度融合,这里面会面临一些问题。”

他指出,目前企业应用千亿级参数大语言模型通常有两种方式,访问公有云服务或私有化部署,这两种模式各有其优缺点。公有云服务的优点在于可以快速接入,可灵活选择服务提供商,但面临着监管合规、数据泄漏风险、专属模型成本高昂等问题;私有化部署可以解决企业对数据安全担忧的问题,企业也可以利用自有数据更加方便地对基础模型进行微调定制,但同样也面临使用成本高的问题,千亿级参数大模型对计算资源和技术人员水平都会有较高的要求。

杨胜文表示,在LLM技术还在快速演进的今天,应该充分发挥当前大语言模型的优势能力,也就是卓越的语言理解和生成能力。百亿级参数模型不论是推理还是微调,都有明显的成本优势,是推动LLM在企业低成本、规模化落地的一个重要选项。同时,日益繁荣的开源生态也为百亿级参数模型在企业应用落地创造了条件。当前已经出现了一些由研究机构和初创公司发布的开源模型,效果表现良好且遵循对商业使用非常友好的开源协议。

HashML大幅降低LLM应用门槛

数据作为企业非常重要的资产,如何通过数据分析、挖掘、建模,释放数据价值,是当前企业数字化建设的一个关键话题。数据仓库是企业实现数据存储、分析、处理和计算的核心场所。

长期以来,数据仓库主要用来满足企业的描述性分析需求,而业务价值更高、同时技术复杂度更高的预测性分析和决策性分析,目前仍未获得广泛应用。过去,行业内曾经尝试在数据仓库中实现诸如机器学习这样一些高级分析能力,但传统的In-Database机器学习解决方案支持的算法种类有限,且偏传统的算法居多,对深度学习的支持非常弱,运行效率也整体欠佳。

相比传统架构的数据仓库,HashData采用存算分离的架构,不仅能够通过SQL计算引擎对传统的数仓业务提供很好的支持,还能够借助ML/DL计算引擎实现对机器学习和深度学习的高效支持,其中包括对大语言模型微调和推理的支持。HashML就是酷克数据利用HashData强大的计算引擎打造的下一代In-Database高级分析和数据科学工具。

当大模型遇到数据仓库 HashData助力LLM规模化应用

图1 HashML主要功能概览

HashML通过以下特性为企业提供了简单易用、效果优异的AI开发体验:

1、HashML提供了广泛的算法支持,特别是通过对深度学习框架的支持,能够支持各种深度神经网络算法,也对大语言模型的微调、推理以及基于大语言模型的智能应用搭建提供了良好的支持;

2、新算法的开发和引入变得非常容易,客户仅需关注神经网络结构的定义和实现,就能开发一种全新的深度神经网络算法;

3、HashML支持分布式并行训练和推理,能够根据数据规模和模型复杂度灵活调整并行度,大幅提高了模型训练和推理的效率;

4、HashML支持GPU加速,通过多机多卡分布式计算能够进一步提升运算效率;

5、HashML提供标准、统一、简洁的API接口,大幅降低了应用门槛;

6、HashML支持Python和SQL两种编程语言接口,开发者可以根据个人偏好自主选择;

7、HashML通过Python接口能够与繁荣的数据科学生态相融合,为数据科学家和机器学习工程师提供便捷的开发工具。

HashML作为HashData云数仓的一个扩展实现,与数仓共享统一的存储和计算资源,随数仓的部署提供开箱即用的AI能力,大幅降低了系统部署的成本和复杂度,为开发者提供了统一的数据查询、分析、建模环境。

“HashML首要设计目标就是简单易用,希望客户能够无门槛使用各种经典和最前沿的AI算法和模型能力来解决实际业务问题。”杨胜文表示,LLM与HashData为代表的业界领先的企业数据仓库相结合,使得从数据处理、模型微调到知识增强的智能应用构建的全流程变得更简单,推动LLM走向规模化应用。

当大模型遇到数据仓库 HashData助力LLM规模化应用

图2 基于HashData的LLM低成本落地方案

在会上,杨胜文介绍了HashData与LLM相结合的两个应用案例:知识增强的智能问答(见图3)和Text2SQL(从自然语言生成SQL,见图4)。在知识增强的智能问答应用案例中,用户可以通过收集整理文档,并对文档进行解析、分块、编码,构造向量知识库。当用户输入一个问题时,对话机器人首先基于问题去知识库查询相关信息,然后构造合适的Prompt去请求大语言模型并获得生成的结果。当知识库存在与问题高度相关的信息时,语言模型就可以基于对这些信息的理解和摘要,生成高质量的回答。

当大模型遇到数据仓库 HashData助力LLM规模化应用

图3 基于向量知识库的智能问答

在Text2SQL应用案例中,由于基础模型在自然语言转SQL方面的能力相对较弱,需要对基础模型进行微调。为此,团队准备了大概十几万条训练语料,利用HashML封装的LoRA方法进行了微调,在一张V100的卡上进行训练。为了实现更好的效果,在和机器人交互的时候,除了提供用户输入的查询请求,还需要提供实现该查询所需的数据表的Schema信息。Schema信息可以由用户提供,也可以在实际生产场景中,由机器人连接数据库自动获取。

当大模型遇到数据仓库 HashData助力LLM规模化应用

图4 Text2SQL:从自然语言生成SQL

展望未来,杨胜文认为,未来大语言模型发展方向必定是多元化、普惠化,每个企业都可以利用大语言模型来提升智能化水平,实现降本增效。数据与大语言模型的紧密结合,将会为企业和社会创造巨大的价值。以HashData为代表的企业数据仓库,为这种结合提供了一个天然的平台。企业可以在自有数据上通过模型微调和应用创新,释放大语言模型的应用潜力,进而充分释放数据价值,实现新的增长点。基于数据仓库和大语言模型构建面向场景的智能应用,将成为企业智能应用开发的新范式。文章来源地址https://www.toymoban.com/news/detail-515440.html

到了这里,关于当大模型遇到数据仓库 HashData助力LLM规模化应用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 配置LLM运行环境时遇到的坑

    1. bitsandbytes 遇到CUDA Setup failed despite GPU being available. 使用conda 管理环境时加载大模型会遇到bitsandbytes无法识别cuda的情况: 此处windows系统: linux 系统: 将bitsandbytes版本降低至0.39.0 2. 在安装deepspeed库时报错, can not find CUDA_HOME, 由于使用conda 管理环境时安装pytorch会安装一系列

    2024年02月06日
    浏览(16)
  • LLM Data Pipelines: 解析大语言模型训练数据集处理的复杂流程

    编者按:在训练大语言模型的过程中,构建高质量的训练数据集是非常关键的一步,但关于构建大模型训练所需数据集的通用数据处理流程(Data pipelines)的相关资料极为稀少。 本文主要介绍了基于Common Crawl数据集的数据处理流程。首先,文章概述了Common Crawl的不同数据格式WAR

    2024年02月15日
    浏览(22)
  • 浅谈数据仓库模型设计

    目录 一、背景 1.引言 2.目的与范围 3.使用对象 4.分层意义 二、数据仓库(ETL的四个操作) 三、数据仓库的技术架构 四、数仓分层架构 1.贴源层(ODS: Operational Data Store) 1.数据主要来源 2.数据存储策略(增量、全量) 3.数据抽取 1. 增量抽取 2.全量抽取 3.命名规范 2.数仓层(DW: data war

    2024年02月03日
    浏览(18)
  • 数据仓库(3)-模型建设

    本文从以下9个内容,介绍数据参考模型建设相关内容。 OLTP:全称OnLine Transaction Processing,中文名联机事务处理系统,主要是执行基本日常的事务处理,比如数据库记录的增删查改,例如mysql、oracle OLAP:全称OnLine Analytical Processing,中文名联机分析处理系统,支持复杂的分析操

    2024年02月01日
    浏览(18)
  • 【数智化人物展】白鲸开源CEO郭炜:大模型助力企业大数据治理“数智化”升级...

    郭炜 本文由白鲸开源CEO郭炜投递并参与《2023中国企业数智化转型升级先锋人物》榜单/奖项评选。 数据智能产业创新服务媒体 ——聚焦数智 · 改变商业 随着数据驱动的理念深入人心,每个企业内部积累越来越多纷繁复杂的大数据,而这些新兴数据源与快速敏捷开发过程给

    2024年02月08日
    浏览(19)
  • AIGC基础:大型语言模型 (LLM) 为什么使用向量数据库,嵌入(Embeddings)又是什么?

    嵌入: 它是指什么?嵌入是将数据(例如文本、图像或代码)转换为高维向量的数值表示。这些向量捕捉了数据点之间的语义含义和关系。可以将其理解为将复杂数据翻译成 LLM 可以理解的语言。 为什么有用?原始数据之间的相似性反映在高维空间中对应向量之间的距离上。

    2024年02月21日
    浏览(27)
  • 微软开源了一个 助力开发LLM 加持的应用的 工具包 semantic-kernel

    在首席执行官萨蒂亚·纳德拉(Satya Nadella)的支持下,微软似乎正在迅速转变为一家以人工智能为中心的公司。最近微软的众多产品线都采用GPT-4加持,从Microsoft 365等商业产品到“新必应”搜索引擎,再到低代码/无代码Power Platform等面向开发的产品,包括软件开发组件Power

    2024年02月03日
    浏览(25)
  • 数据仓库模型设计V2.0

    数据模型就是数据组织和存储方法,它强调 从业务、数据存取和使用角度合理存储数据 。只有将数据有序的组织和存储起来之后,数据才能得到高性能、低成本、高效率、高质量的使用。 高性能:良好的数据模型能够帮助我们快速查询所需要的数据。 低成本:良好的数据模

    2024年02月07日
    浏览(21)
  • 一文搞懂数据仓库分层模型

    数据仓库、数据湖的业务目的就在于集中数据、标准化、形成数据产品、面向业务场景开放数据。通俗地讲就是把各个分散的、不易读的、杂乱的、封闭的业务系统数据,归集收编、分门别类、整齐划一、规范管理,让业务便捷获取、使用,最大可能大挖掘和发挥数据价值。

    2024年02月06日
    浏览(35)
  • 上传、下载huggingface仓库文件(模型、数据等)

    例如,想要从huggingface hub下载llama-13b模型文件到本地: 可以用如下命令, local_dir 就是你想要下载到的本地文件夹: 上述命令等价于 git clone ,更多参数, 例如过滤、指定文件,建立符号链接等,详见官网教程: Download files from the Hub 想要上传文件,例如模型权重的话,首先得

    2024年02月12日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包