揭秘华为研发代码大模型是如何实现的

这篇具有很好参考价值的文章主要介绍了揭秘华为研发代码大模型是如何实现的。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文分享自华为云社区《风靡万千软件开发者:揭秘华为研发代码大模型是如何实现的?》,作者: DevAI 。

秉持“自己的降落伞,自己先跳”的原则,由公司装备部门牵头,携手华为云PaaS作为基础能力提供方,与公司各产品线共同研发面向产业的代码大模型。在研发过程中,我们已取得初步成果,为了巩固各产品线的代码生成探索经验,我们将产品线研发成果迅速投入业务应用。在此基础上,我们总结了前期的方法和经验,期待更多产业的加入与交流,共同推动产业代码大模型的演进与推广落地。

本文深入探讨了当前研发大模型在实际产品中代码生成能力所面临的挑战,阐述了探索的总体思路、数据标准与语料层次、演进策略以及模型训练方案设计。同时,还介绍了RAG方案设计以及某产品线Dopra在真实场景中的应用,并总结了一套可快速复制的方法论。最后,对未来发展趋势进行了讨论:研发大模型是否有可能取代程序员?

1 产业研发大模型面临的挑战

华为拥有超过10万名代码开发者,每天新增代码行数达千万级别。在这种情况下,提高开发过程的效率变得至关重要。研发过程涵盖了需求理解、系统分析与设计、软件开发(包括手工编写代码、测试用例、代码检视)、系统集成与验证以及研发维护等环节。在整个研发过程中,编写代码的部分大约占据20%的比重。在人工智能大模型的时代,为了提升研发效率,利用大模型辅助生成代码的需求已经迫在眉睫。

在与产品线领域代码专家进行交流时,我们发现,由于产业数据未纳入训练过程,开源代码大模型在研发阶段基本上无法发挥作用。在产业领域,我们面临以下挑战:

首先,信息通信技术(ICT)专业领域知识繁杂且多变,开源模型未系统学习过程领域知识和系统设计等方面,因此难以处理复杂任务。

其次,华为代码仓库中存在数十万自定义的数据类型、函数API和变量引用,这些代码的语义复杂性较高。由于公司部分产业导向代码自注释,结构类型和成员、函数、变量缺少足够的人工注释。

此外,代码具有单一性,不同产品之间的代码关联性较小,导致代码语料数据泛化性不足。同时,文本与代码关联的语料数据在质量和数量方面都存在不足。华为嵌入式系统主要基于C/C++开发,C/C++代码具有固有特征,如头文件机制使类型和函数逻辑实现分离,状态空间更为庞大。

最后,代码依赖链路较长,涉及Void *、指针、结构体、宏定义、头文件等多种元素。项目级的跨文件和多层嵌套导致上下文依赖链路较长,从而降低了代码生成的准确性。

根据实地考察的业务需求以及公司研发战略目标,我们将重点关注具有业务价值的场景。目前,研发大模型项目组正致力于攻克代码辅助生成(C/C++/Java/Python)的难题,以构建软件领域的代码大模型,从而推动软件开发领域的新范式。

2 研发大模型构建探索总体思路

为了提高研发迭代的反馈效率,华为云PaaS大模型团队制定了5项数据标注与清洗规范、以及5个脚本工程项目。

图1 研发大模型探索的总体思路

在整个流程中,从原始训练语料的准备与清洗、SFT语料的提取,到训练、评估和部署的全自动化操作,华为云PaaS团队已经制定了5个数据标注和清洗规范。在训练流水线过程中,涉及到的5个脚本工具(包括清洗工具、SFT提取工具、训练脚本工程、部署脚本工程和IDE插件)也已经得到了产品线业务专家的认可和落实。这些措施显著提高了大模型研发的效率。

3 那些数据应该参与研发大模型的训练?

数据是大模型研发的基石,其质量直接影响到模型的最高性能。若大模型未经过专业领域数据的训练,就如同“文科生学理科”。针对产业特有的数据特征和挑战,我们首先对产业数据的训练配方表进行了梳理。明确了训练语料的范围、目标、场景、数据标准、处理规则、处理工具、试点产业以及质量评价等相关信息。

图2:研发大模型语料层次表

L0 开源阶段:对 GitHub、Stack Overflow 等高质量数据进行清洗。

L1 RawCode 阶段:清洗华为语料库中的 30 亿 tokens,涉及公司 10 余个产品线,以增强华为业务代码的基础能力。

L2 领域数据-SFT 阶段:包括代码地图、项目级的跨文件信息以及工程规范。通过 SFT 指令微调,利用跨文件上下文信息和领域专业知识,解决生成代码中的幻觉问题。

RAG(Retrieval Augmented Generation)阶段:在 IDE 项目文件中检索跨文件信息;在向量数据库中检索 API 接口说明、工程规范信息。根据 prompt 模板,将用户的需求描述与上述检索信息拼接成完整的 prompt,输入给大模型。

由于 L1/L2 模型训练需要一定周期,业务实践中项目组先使用 RAG 语料验证效果,逐步探索 L2 SFT/L1 Raw Code 匹配任务,以提升模型的理解能力和研发效率。

单一的 Prompt 工程/RAG 在一定程度上可以让模型接触到专业领域知识,增强专业表达。然而,更为关键的是让专业领域知识参与到模型训练过程中。

4 研发大模型整体演进策略与方案设计

为了提高大模型研发的效率,我们将整个研发过程分为两个阶段进行迭代和优化:

1、数据准备阶段。首先,我们对各产品线的代码仓库进行评估,挑选出高质量的代码仓库。接着,根据华为云PaaS研发项目组制定的五项数据标注和清洗规范对代码进行清洗。在《训练&推理语料层次表》的基础上,构建代码地图,并通过人工抽查与脚本校验自动化执行。最后,对训练数据进行格式统一,生成训练集、客观评测集和主观评测集。

2、在训练和评估阶段,我们针对第一阶段所准备的训练数据,在ModelArts平台上启动训练任务。通过每隔x个epoch生成的检查点(checkpoint)来进行训练迭代。在此基础上,我们进行批量模型评估,并将模型部署在Alpha环境中,以便用户进行评估和使用。

在Alpha环境中,IDE插件的上下文提取和RAG检索两个过程被巧妙地隐藏起来。IDE需要在项目层面跨文件进行上下文分析,从而提取当前编辑区域用户关注的跨文件上下文信息,并在prompt工程中进行组装。同时,RAG会根据用户的输入和意图,检索业务知识向量库。在prompt工程中,上下文信息和业务知识将按照重要性进行排序,然后送入代码大模型进行推理。生成的代码经过后处理后,最终呈现在IDE用户界面上。

在研发过程中,数据准备以及模型的训练和评估并非一蹴而就,而是需要经过多次迭代和验证。训练和评估过程中出现的现象和问题可以为数据迭代过程提供反馈。两个阶段紧密衔接,共同推进以实现最终的优化目标。

图3:研发大模型整体演进策略与方案设计

5 RAG:研发大模型的最后“一公里”

模型训练在一定程度上缓解了领域知识匮乏的问题(例如,避免使用不存在的数据对象和API,从而减少编译错误和运行错误)。然而,由于模型更新迭代周期较长且领域范围广泛,在实际产业应用中,仍需结合领域相关的《xx使用手册》、《xx白皮书》和《xx使用指南》等资料,以进一步减轻代码生成中的幻觉问题,提高知识的可追溯性和解释性。

RAG的设计方案和实现形式多样,我们的RAG方案主要关注自动化信息抽取和项目级上下文感知能力。

业务知识广泛分布于HTML、PDF、DOC、Word等多种形式,且范围广泛且接口不统一。为解决这一问题,项目组结合知识图谱和大模型技术,实现结构化、半结构化和非结构化信息的抽取,无需人工干预,即可生成低成本且高质量的知识。

自动化信息抽取同时解决了知识增量刷新机制的问题:通过工程化方法,克服了LLM知识更新的难题。将业务领域知识、华为编程框架、工程规范等模型所不具备的能力与模型相协同。在项目级上下文感知方面,基于项目静态结构、仓库演化历史以及开发者实时行为,精确检索与代码生成任务最相关的项目上下文。

以某产品线Dopra开发场景为例,我们整理了开发手册、线下文档、社区平台以及开发者经验等数据,汇总成Dopra开发的领域知识,并将这些知识向量化,存储到向量数据库中。当用户输入需求任务后,通过RAG能力,我们可以获取与该任务相关的开发经验信息。将这些信息通过“领域经验”提示模板输入给大模型,从而显著提高大模型输出代码的正确性。

图5 RAG方案中使用的Prompt版本示例

6 研发大模型:是否会取代程序员?

许多程序员都关心一个问题:研发大模型是否会最终取代程序员?经过调查,我们发现了一些有趣的观点。

1. 程序员的需求各异。在对产品线专家进行调研时,我们发现他们对业务非常熟悉,主要关注行级续写或代码块续写,目的是减少敲击键盘的时间。他们期望模型能顺应开发思路给出提示,辅助编码,而非完全替代开发。

2. AI编程具有很高的特殊性。精确敏感性:一个字符的错误可能导致代码不可用,需要人工干预。远程敏感性:全局变量、父类信息、项目级跨文件信息等大量远程(非IDE插件打开的当前文件信息)对语义影响很大。库敏感性:调用API库的语句对函数的语义影响非常大。

3. AI目前的定位是助手,即开发人员的智能助手。AI助手并不会替代程序员的思考;它们擅长处理重复性高、机械性的任务,帮助程序员聚焦高价值点,提升专业方向的能力。然而,程序员仍需要掌握辅助驾驶的方向盘。

大模型的使用对程序员提出了更高的要求。简单重复的工作可以交给大模型,但更高维度的工作,如代码调试、通信链路联调、项目级别的功能实现等,可能需要经验丰富的架构师和资深程序员来把控。

总而言之,研发大模型将有效提升研发效率,使程序员能够更加专注于深入思考,从而减少重复性和高频率的工作负担。

文章来自 PaaS技术创新Lab,PaaS技术创新Lab隶属于华为云,致力于综合利用软件分析、数据挖掘、机器学习等技术,为软件研发人员提供下一代智能研发工具服务的核心引擎和智慧大脑。我们将聚焦软件工程领域硬核能力,不断构筑研发利器,持续交付高价值商业特性!加入我们,一起开创研发新“境界”!

PaaS技术创新Lab主页链接:https://www.huaweicloud.com/lab/paas/home.html

点击关注,第一时间了解华为云新鲜技术~

 文章来源地址https://www.toymoban.com/news/detail-748509.html

到了这里,关于揭秘华为研发代码大模型是如何实现的的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 高管对谈|揭秘 NFT 技术背后的研发方法论

    有人说, 元宇宙是未来,NFT 则是通往这个可能的未来的数字通行证。 经过一度热炒之后,NFT 逐渐回归理性的「大浪淘沙」轨迹。NXTF_(廿四未来)正是一家将 NFT 向实体经济靠拢并与之结合的公司。 NXTF_利用区块链技术,发力于数字藏品领域,构建了「虚实」融合的商业模

    2024年02月03日
    浏览(46)
  • 大厂一线研发揭秘:怎么样才算全面了解了业务?

    刚做开发时,觉得自己要好好学习技术,对业务不上心,公司让我做什么就用自认为极其优雅的编码方式解决,但对为什么要做这个事,做了对业务有什么影响,做完了有没有达到业务目标,并没有很关心。后续观察了身边的一些同学,整体上业务与技术链接比较好的同学职

    2024年04月22日
    浏览(39)
  • 【微信小程序】如何获得自己当前的定位呢?本文利用逆地址解析、uni-app带你实现

    目录 前言 效果展示 一、在腾讯定位服务配置微信小程序JavaScript SDK 二、使用uni-app获取定位的经纬度 三、 逆地址解析,获取精确定位 四、小提示 在浏览器搜索腾讯定位服务,找到官方网站,利用微信或者其他账号注册登录,登录后如下图操作 点进去之后,可以看到如下图

    2024年01月19日
    浏览(87)
  • STM32 | GPIO口的普通与复用如何配置与用法,本文降从最底层教你如何查看手册运用寄存器来实现GPIO口的配置

    🎊【蓝桥杯嵌入式】专题正在持续更新中,原理图解析✨,各模块分析✨以及历年真题讲解✨都在这儿哦,欢迎大家前往订阅本专题,获取更多详细信息哦🎏🎏🎏 🪔本系列专栏 -  蓝桥杯嵌入式_勾栏听曲_0的博客 🍻欢迎大家  🏹  点赞👍  评论📨  收藏⭐️ 📌个人主

    2024年02月14日
    浏览(46)
  • AR技术揭秘:如何实现虚拟与现实的完美融合?

    AR技术(Augmented Reality)是指将虚拟物体叠加在现实世界中,使得用户可以与虚拟物品进行交互。AR技术的核心是通过摄像头捕获到真实环境下的图像,并将虚拟物体加入到其中,最终呈现给用户。 AR技术已经被广泛应用于游戏、教育、医疗、工业等领域。下面我们来介绍一些

    2024年02月09日
    浏览(45)
  • 揭秘 ChunJun:如何实现 e2e&session 日志隔离

    本文将从 e2e 的基本介绍,e2e 的使用与扩展,session 日志隔离三个维度为大家带来 ChunJun e2e session 日志隔离的分享。 大量具体代码和演示请看视频教程⬇️ 视频课程: https://www.bilibili.com/video/BV1ru411P7oZ/?spm_id_from=333.999.0.0 课件获取: https://www.dtstack.com/resources/1052?src=szsm ChunJu

    2024年02月08日
    浏览(39)
  • python好看的流星雨代码,文本文档流星雨代码

    本篇文章给大家谈谈python制作超炫流星雨表白动态,以及python好看的流星雨代码,希望对各位有所帮助,不要忘了收藏本站喔。 以下是一个简单的使用Pygame实现流星雨特效的代码: ```python import pygame import random # 初始化 Pygame pygame.init() # 设置游戏窗口大小 width, height = 800, 60

    2024年02月22日
    浏览(36)
  • 华为云CodeArts DevSecOps系列插件——助力更高效的软件研发

    HDC期间入驻华为云,可参与Toolkit插件抽奖活动,活动链接在文末 一、前言 DevOps的概念想必大家都不陌生,它是一组过程、方法与系统的统称,通过它可以对 交付速率、协作效率、部署频率速率、质量、安全和可靠性 等进行提升改善。相比传统的软件开发模式,它是一种工

    2024年02月16日
    浏览(49)
  • 智能开发助手——华为云CodeArts Snap,揭开智能研发新篇章

    AIGC浪潮席卷全球,大模型技术应用到软件开发领域,正在颠覆传统的软件工程。华为云CodeArts Snap是一款基于大模型技术打造的智能开发助手,旨在提高开发人员的生产力和代码质量,为开发者带来全新的编程方式和体验。 华为拥有千亿行的代码规模、超过11万的研发员工,

    2024年01月19日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包