诚邀您莅临CES 2024 North Hall 9078号展台,星尘数据(Stardust AI)将在美国·拉斯维加斯会议中心LVCC(Tech East)与您探讨机器学习全生命周期数据债问题,并发布一站式AI数据管理全新产品MorningStar。敬请期待!
导语
自ChatGPT推出以来,AI行业取得了巨大的进展,在诸多领域中,大语言模型(LLM)的发展尤为迅速,对各行各业带来了深远的影响。ChatGPT的成功尤其令人瞩目,通过分析其论文和数据策略,业内认识到仅仅增加模型参数是不够的,ChatGPT成功的背后离不开海量优质数据的支撑。这使得以数据为中心的人工智能(Data-centric AI)这一新范式从学术界走向了大众,并引起了广泛的讨论。本文将重点探讨以数据为中心的AI,探索其中的数据债问题及解决方案。
一、迈向以数据为中心的人工智能:Data-centric AI
在当下的人工智能领域,一个重要的趋势是从以模型为中心的人工智能(Model-centric AI)向以数据为中心的人工智能(Data-centric AI)转变。这一观点由著名的人工智能科学家吴恩达提出。他指出,以数据为中心的人工智能是一门系统地设计用于构建人工智能系统的数据的学科(Data-centric AI is the discipline of systematically engineering the data used to build an AI system)。吴恩达认为,AI=Data+Code(model/algorithm),对于同一个AI问题,改进数据比改进代码更能提升模型的效果。当前,AI落地的关键在于如何提升数据质量,这一结论在实际应用中得到了验证。
▲ Model-centric AI和Data-centric AI的区别
以金属缺陷检测任务为例(见下图),当检测准确率为76.2%时,以模型为中心的改进策略,对于检测的准确率几乎没有提高。当保持模型不变,只改变训练数据时,检测的准确率提高了16.9%。可以看出,调整模型结构对于准确率的提升效果非常有限,而数据的调整却对算法效果有明显的提升。此结论在多个任务中得到验证。
▲ 数据的调整却对算法效果有明显的提升
为什么会出现以上结果呢?
因为对于AI来说,数据比想象中更为重要。
▲ 数据之于AI犹如食材之于烹饪
吴恩达指出,数据是AI的食物(Data is food for AI)。在真实的人工智能系统构建过程中,算法工程师有80%的时间在处理与数据相关的工作,只有20%的时间用于模型参数、算法的调整。
正如烹饪一道美味佳肴需要花费80%的时间准备食材,而烹饪只占20%,但往往决定菜品好坏的关键在于食材品质和处理。对于人工智能来说,数据质量、数据策略和数据全生命周期的管理在很大程度上决定了模型的上限。
值得一提的是,不仅学术界提出了Data-centric AI的新范式,工业界也有类似的观点。Dimensional Research在2019年5月的调研报告显示,78%的AI项目没有上线应用;VentureBeat在2019年6月的报告发现,87%的AI项目没有部署到生成环境中。这意味着大量AI工程师的工作没有产生实际的业务价值。甚至曾有工程师吐槽,用3周的时间开发出了初始的模型,但经过了11个月的调整模型还没有部署上线。
▲ 来自算法工程师的吐槽
这是为什么呢?
来自谷歌的工程师在论文《Hidden Technical Debt in Machine Learning Systems—机器学习系统中隐藏的技术债》中给出了答案:
▲ 论文《Hidden Technical Debt in Machine Learning Systems》研究图
如上图所示,在一个真实上线的复杂的AI系统中,模型相关的代码只占5%,95%都和配置、数据采集、验证、分析、管理、模型监控等等相关。
此外,在《A Data-Centric View of Technical Debt in AI》一文中,作者也指出,数据是机器学习系统中最大的潜在技术债务来源。随着数据量的不断增长和模型复杂度的提升,“数据债”——正在成为算法工程师们面临的隐秘又难解的挑战。
论文《"Everyone wants to do the model work, not the data work":Data Cascades in High-Stakes AI》指出,在高风险的人工智能领域,数据的质量至关重要,因为它直接影响着癌症检测、野生动物盗猎和贷款分配等任务的预测结果。然而讽刺的是,尽管如此,数据在人工智能领域却是最常被低估和忽视的方面,这将直接导致数据级联现象的出现。因此我们不得不正视机器学习中的数据债问题。
二、数据债:机器学习中的“隐疾”
「数据债」的定义
「数据级联」是指由数据问题引起的复合事件,随着时间推移导致技术债务。简单来说,如果数据A与数据B进行了级联,那么删除或修改数据A,数据B也会被删除或修改。这种级联效应会持续影响后续的操作,并逐渐增加,就像滚雪球一样。
论文《“Everyone wants to do the model work, not the data work”: Data Cascades in High-Stakes AI》表明,92%的人工智能从业者遭遇一个或多个级联事件,45.3%的人在某个项目中经历过两个或更多级联事件。数据问题累积,级联关系不透明,低估数据质量等都会导致数据级联。
▲ 高风险AI中的数据级联。级联是不透明和持久的,负面效应会不断增加。级联从上游(例如数据收集)触发,对下游(例如模型部署)产生影响。粗红箭头代表数据级联开始变得可见后的复杂效应;虚线红箭头代表放弃或重新开始机器学习数据流程。指标主要在模型评估中可见,作为系统度量和故障或用户反馈。来自论文《“Everyone wants to do the model work, not the data work”: Data Cascades in High-Stakes AI》。
「数据债」一词则源于「技术债」。技术债指在软件开发过程中,因为时间、资源、成本等多种原因选择快速、简单的解决方案而产生的潜在问题和隐患,这些问题可能会导致未来的开发工作更加困难、耗时和成本昂贵。软件工程师必须付出额外的时间和精力持续修复之前的妥协所造成的问题及副作用,或是进行重构。
在机器学习领域也一样,数据是机器学习的基本要素,会影响机器学习系统的性能、公平性、稳健性和可扩展性。一个算法的上线部署需要经历需求定义、方案制定、数据采集、数据标注、模型设计、训练、指标测试、推理优化等等。
▲ 机器学习全生命周期的数据债
如上图,在这个过程中,涉及到业务人员、产品经理、数据运营/项目经理、数据标注人员、数据科学家、算法工程师等多个角色,这不仅对算法工程师的全流程把控能力提出了极高要求,也要求每个环节的参与人员对于数据价值和用法有清晰的认识。比如,需要明确这个算法需要使用什么样的数据?使用什么样的特征?有哪些需要考量的细节?数据标注的规则是否合理?数据标注项目经理的理解是否精准?标注人员的理解是否存在偏差等等。
「数据债」指由于低估了数据在AI中的重要性,在机器学习全生命周期中的各个环节,由于各个角色跨组织协同产生的数据质量问题。
当算法工程师进行模型训练时,80%的时间都会用在数据处理上,目标是解决业务问题:BadCase是否得到解决?CornerCase是否得到优化?业务KPI是否达标?各个环节都存在增加“数据债”积累的风险,数据债=模型差=业务问题无法解决。接下来,我们将分析“数据债”产生的原因。
「数据债」的来源
1、“为何做”与“如何做”:算法工程师与数据标注PM认知之间的gap
算法工程师强调“数据>算法>创新”的思路,重视数据的价值和质量。他们会准确评估数据的价值,定义数据标注的边界,并对数据进行详细记录和分析。但是,数据标注工作通常不是算法工程师负责,而是数据运营或数据项目经理作为“中间人”,去找供应商或自身标注团队来完成。
▲ 自动驾驶场景中的4D BEV数据标注,图源星尘数据
这种情况下,算法工程师和数据标注项目经理之间的认知差异,便可能导致数据标注需求的不明确,标规则的不统一,从而造成重复标注、多次返修、甚至无效标注等“数据债”。例如在目标检测场景下,数据标注项目经理认为三轮车和两轮车不需要区分,而算法工程师训练时则发现需要区分,一批已标注完成的数据则需要重新返修。
再比如,算法工程师拿到数据后进行了badcase分析,并按照场景和类别对训练数据进行精细分类,但是改进和优化测试集、测试方案和测试指标的过程中才发现数据不均衡、难例缺失、或场景单一等问题,于是再次找到数据团队,进行新一轮的数据标注。
▲ 如果模型数据质量低,即使算法架构好,模型效果也可能不好
算法工程师之间流传这样一句话:“garbage in, garbage out”,如果喂给模型的是一堆脏数据,模型就会输出一堆垃圾结果。“为何做”与“如何做”之间总会存在沟通、理解、执行等多重的gap,这种认知的差异则导致数据质量、数据标注效率、数据标注投入程度和最终产出不能有效得以保证。解决不了算法问题的数据标注只能是苦劳而无功劳,但这种问题暴露往往是滞后的。
2、“理想”与“现实”:算法训练与业务应用之间的差距
算法研发还面临着另外一个挑战:在真实的业务场景落地并产生业务价值。算法能解决应用的问题=模型好=数据好,反之亦然。当业务方希望快速增加一个需求时,算法需要知道为什么增加这个需求,数据从何而来,是否需要重新训练模型。明确需求后,算法需要准备数据、训练模型、研究数据,看paper,然后对模型进行改进和再次训练,形成一个闭环。
事实上,大量算法工程师认为,模型在整个流程中所占比重很少,绝大部分时间都是花在思考业务、数据标注和数据分析上,以提高模型的泛化性。但即使算法训练效果很好,一旦面对真实而复杂多变的环境,准确率也可能显著下降。举个例子,眼疾检测模型在训练时使用无噪声训练数据,性能很高,但当实际图像上有小颗粒灰尘时,便无法检测出疾病。
▲ 算法工程师需要标签分布、难例发现等工具管理数据,图源星尘数据
所以,算法工程师需要耗费大量的时间和精力仔细研究数据,找出异常之处,了解数据规律,反复编排流程,比较版本差异,以提高模型的泛化性,达到最佳效果。研究、分析、使用、迭代数据的过程中,便会产生大量的“数据债”,如:难以直观看到数据分布,效率低;数据语义缺乏记录,难复现;数据指标不完善,难挖掘;数据量巨大,检索困难......据OpenAI内部工程师透露,由于数据历史语义丢失,ChatGPT之前曾一度面临模型无法复现的问题。
3、“规则”与“实操”:文档不统一和跨组织执行之间的“鸿沟”
很多时候,为了节省标注时间和成本,降低标注难度,算法工程师需要对标注数据进行预处理。例如,在人脸识别领域,通常需要对人脸图像进行特征提取,然后进行聚类,只需要人工剔除聚类结果的离群点即可。然而,为了尽快完成产品开发,算法方面往往会直接准备好数据交给标注人员,甚至放弃对部分数据边界的分析,数据标注规则和文档往往不够清晰。
在实际操作过程中,数据标注并非一蹴而就的事情。在一些非标准化的数据标注工作中,项目经理并没有可供参考的操作手册,需要根据实际情况反推标准的适用性,并从问题中寻找解决方案,以形成更稳定、更具操作性的方法。
▲ 缺乏统一文档会导致信息传递偏差,图源网络
同时,数据标注目前缺乏统一的行业标准。文档不统一和规则不清晰导致了数据标注方面缺乏清晰的指导。尽管数据标注行业已经处于变革的时刻,自动化标注正在很大程度上取代人工,但行业内仍存在一些固有的分工流程:企业将任务交给数据标注公司,标注公司再分包给小公司或作坊,有些小作坊甚至会进一步将任务外包给个人,如兼职学生。由于数据标注团队的能力参差不齐,数据经过多次转手,偏差就会像滚雪球一般积累.......
此外,跨组织之间的数据规则和语义文档缺失,导致组织内部、数据收集者、标注人员和算法研究人员对标签的理解常常存在不一致的情况,重复造轮子,数据孤岛问题也一直存在。
4、“对症”与“下药”:算法需求与数据工具链缺失的gap
在实际的算法训练和迭代过程中,算法工程师通常在发现模型效果不佳或遇到错误时才开始严格管理数据,这种应急处理的方式看似成本小,实际上却是一颗定时炸弹。
但这并不能完全怪罪算法工程师,因为以模型为中心的人工智能并没有提供维护数据的DataOps系统,大量的算法工程师需要手动记录数据使用情况,这不仅消耗大量成本,还降低了算法敏捷开发和快速迭代的效率。
▲ 大模型数据标注,图源星尘数据
举例来说,在大模型的算法迭代过程中,算法工程师需要进行语义检索,发现一些特定的难例,比如语义模糊的句子、歧义性较大的短语等。这些特殊情况需要被单独处理和标注,以确保模型能够更好地理解。然而,如果这些需求依赖于手动的数据检索和处理,不仅耗时耗力,效率低下,由于人为操作的主观性和误差性,也会导致数据的不一致性和低质量,带来一系列的“数据债”。
此外,在自动驾驶算法训练中,算法工程师需要大量的视觉数据来训练模型,以识别道路、车辆、行人等元素。然而,如果在数据采集和标注过程中存在重复使用同类型数据的情况,对数据的分布缺乏全面的认知,模型会对特定场景“过拟合”,泛化能力不足。自动驾驶特殊场景数据极为稀缺,对难例的发现和处理提出更高的要求。
▲ 数据的标签分布,图源星尘数据
此外,自动化、自定义的数据检索和可视化的版本管理对于算法工程师也至关重要。如果数据版本没有得到妥善管理,会导致在模型效果出现问题时无法准确追溯到数据的来源和处理过程,无法还原问题点。然而,目前市面上却没有一套完整的“对症下药”的数据工具链,这也加大了算法工程师在数据处理方面的挑战。
5、“高价值”与“高浪费”:数据资产与数据管理之间的gap
在数字经济高速发展的今天,数据的价值已不言而喻。善用数据生产要素,促进数据要素市场化,正在成为驱动数字经济创新发展的重要抓手。然而,释放数据价值并非一朝一夕,而是需要构建科学合理的数据治理体系来重构数据生产关系。
2023年10月25日,国家数据局正式挂牌成立。2024年1月4日,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》。国家信息中心大数据发展部规划处处长郭明军曾表示,“数字经济时代,数据是国家基础性战略资源。”在数字经济时代,数据就像‘工业血液’石油一样,是每个企业生存发展不可或缺的生产资料。
▲ 国家数据局等17部门联合印发《“数据要素×”三年行动计划》
当前,全球数据量仍在飞速增长。根据IDC发布的《数据时代 2025》测算,到2025年,全球的数据生产量将达到175ZB。目前市场上90%以上的数据是非结构化数据,但只有不到10%得到有效利用。如果企业数据未经有效管理和利用,将成为资源的浪费。此外,未明确数据资产价值也会导致高昂的存储和管理成本。因此,企业应该对不同价值的数据进行合理处理,否则将面临以下“数据债”问题:
1、数据价值无法释放:在企业数据治理前,很多企业的数据存在无管理、无利用、无价值的“三无”情况。这可能导致企业无法把握AI新时代的机遇,使企业无法准确把握市场动态,市场竞争力变弱。
2、数据孤岛:由于缺乏统一的数据管理和共享机制,企业各个部门之间存在“数据”孤岛现象。这不仅导致数据无法充分发挥作用,还可能造成数据的冗余和重复,给企业带来额外的成本。
3、运营成本增加:如果企业不解决上述问题,数据处理效率缓慢,难以适应日益激烈的市场竞争和不断变化的市场环境,这可能给企业带来额外的成本和资源浪费。
通过上述五大来源不难发现,“数据债”的生产链条非常复杂,各个环节相互关联,涉及的角色众多,难以量化。在机器学习的整个过程中,这种数据债不仅会影响算法的迭代效率,还会对AI系统的可靠性和稳定性产生潜在影响,从而降低数据资产的价值。因此,像Jira这样的工具能够为产品研发提供管理和保障一样,数据也需要在整个生命周期中得到有效的管理。
三、DataOps:解决数据债的“良方”
DataOps(Data Operations)并不是一个新的概念。它早在2014年就被IBM(Lenny Liebmann)提出,2017年开始受到广泛关注,并在2018年正式被纳入Gartner的数据管理技术成熟度曲线。在2023年的大数据产业发展大会上,DataOps被选为“2023大数据十大关键词”。
DataOps,全称为数据运维,是一种面向流程的自动化方法,主要由分析和数据团队使用,目的是提高数据分析的质量并缩短数据分析的周期。DataOps对于企业从数据中获取真正价值、实现数字化运营以及建设数据中台都非常重要。
类似于软件领域的DevOps,DataOps并不是单一工具,而是帮助企业实现数据价值的最佳实践,主要包括数据技术、数据管道、数据处理、数据策略、数据管理等。
▲ 机器学习中的数据闭环,图源星尘数据
DataOps的目标是提供工具、过程以及结构化的方式来应对快速增长的数据,对数据团队赋能,更高效、高质量的完成数据管理和分析,它强调交流、协作、多系统集成以及自动化流程。
如果说, DevOps是解决软件系统技术债问题的利器,DataOps则是解决“数据债”的良方。从发展上看,自2018年被纳入Gartner的数据管理技术成熟度曲线中以来,DataOps的热度逐年上升;从实践上看,欧美企业对于DataOps的探索和发展要早于中国,DataOps在我国仍处于一个从萌芽期到爆发期的关键过渡阶段。目前,国内已有一些企业进行了DataOps的探索和实践,并将其应用于机器学习全生命周期的数据管理。
四、MorningStar:DataOps解决方案的最佳实践
Data-centric AI强调数据在机器学习中的重要地位。一个完整的机器学习全生命周期的数据管理系统不仅决定了数据质量和使用效率,也直接影响着模型效果的上限,成为解决“数据债”问题的关键和未来AI领域最大的竞争壁垒。
从数据采集到模型部署和监控,每个环节都需要相应的工具支持。只有通过建立健全的DataOps工具链系统,算法工程师才能更好地管理和利用数据,减少“数据债”的积累,确保机器学习系统的稳健和可靠。
基于DataOps的思想和理念,针对AI算法中数据债累积等问题,星尘数据打造了一站式AI全生命周期数据管理平台MorningStar,旨在支持AI算法的高效迭代,实现机器学习闭环全链路打通,助力打造专注高效迭代的算法生产环境。
▲ 星尘数据一站式数据管理平台Morningstar
通过AI全生命周期的可视化管理,MorningStar数据管理平台不仅能确保数据统一管理和快速迭代;还支持灵活数据切片;多模态、自定义数据检索;挖掘数据价值,快速提取特殊场景数据;同时,集成主流难例数据发现策略,如主动学习等,为算法工程师提供数据特征分布、可视化和模型指标计算等便捷功能。此外,MorningStar汇聚数据资产及其价值发现功能,支持数据权限管理,使团队协作更安全、数据迭代可追溯,打破企业内部的“数据孤岛”,助力企业在 AI 成本投入、算法精度、数据应用能力上提升。
结语
随着大模型的爆发,AI已快速进入千行百业。AGI的曙光也带来了海量非结构化数据积累、存储、标注、使用和管理的爆炸式需求。一个完整的、闭环的DataOps数据管理系统不仅可以解决“数据债”的问题,还能够帮助企业节省成本,加速AI落地,带来更大价值。
星尘数据一站式AI全生命周期数据管理平台 MorningStar即将于CES 2024全球首发,目前,平台已向全行业开放试用申请。如果您正面临“数据债”的问题,正在寻找Data-centric AI的伙伴,或者亟需加速数据迭代的工具链和方法,希望有效管理整个AI生命周期中的数据,我们将为您提供一站式的数据基础设施和最佳数据解决方案。文章来源:https://www.toymoban.com/news/detail-813461.html
如果您觉得MorningStar可以帮助到您,可以通过申请试用,我们的数据策略专家将与您取得联系。文章来源地址https://www.toymoban.com/news/detail-813461.html
到了这里,关于Data-centric AI:解决“数据债”隐患的新范式的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!